十 几 年 前 ,我 看 过 Spinellis 先 生 所 写 的 《代码 阅读 》 (Code Reading) 和 《代码 质量 》 (Code Quality) 两 本 书 ， 特 别 喜 
欢 这 种 全 面 讲 解 编程 工作 中 某 个 领域 的 教程 ， 这 次 又 读 到 同一 位 作者 所 写 的 《Effective Debugging》， 感 党 依然 很 精彩 。 


这 是 一 本 在 思路 和 技巧 上 都 较为 丰富 的 调试 手册 。 


从 思路 万 面 来 说 ， 本 书 介绍 了 许多 宏观 与 微观 的 调试 办 去。 例如 ， 在 面 对 软 件 故 障 时 ， 既 可 以 从 整体 情况 入 手 ， 进 行 目 上 而 
下 的 调试 ， 也 可 以 从 具体 故障 入 手 ， 进 行 自 下 而 上 的 调试 ， 还 可 以 考虑 用 高 级 的 抽象 机 制 、 便 捷 的 程序 库 、 直 日 的 算法 、 简 洁 的 
逻辑 ， 乃 至 另外 一 门 更 为 合适 的 编程 语言 ， 对 bug 繁 多 的 代码 进行 改写 一 一 这 些 思 路 ， 都 能 在 调试 工作 中 给 人 以 局 友 。 


从 技巧 方面 来 说 ， 本 书 介绍 了 众多 的 调试 工具 与 手法 : 有 些 可 以 在 程序 运行 之 前 ,设置 断 点 并 对 表达 式 与 程序 的 状态 做 出 断 
言 ;有 些 可 以 在 程序 运行 之 中 ， 将 各 种 调试 机 制 与 程序 进行 连接 ， 并 对 其 执行 情况 进行 记录 ; 有 些 则 可 以 在 程序 朋 溃 之 后 ， 通 过 
核心 转 储 等 信息 来 还 原 当 时 的 情境 。 此 外 ， 作 者 还 讲解 了 如 何 把 这 些 前 置 、 中 置 和 后 置 技巧 与 版 本 控制 系统 、 静 态 分 析 工 具 、 动 
态 分 析 工 具 及 性 能 测评 工具 结合 起 来 使 用 ， 以 提升 调试 的 效率 。 


全 书 的 8 个 大 类 中 含有 66 条 技巧 ， 这 些 技巧 都 是 围绕 着 “ 重 现 bug 一 一 探查 bug 一 一 解决 bug” 这 一 主线 而 展开 的 。 针 对 这 
三 个 阶段 ， 作 者 进行 了 详细 的 分 步 讲 解 ， 给 出 了 很 多 实用 的 范例 代码 与 建议 ， 而 且 特 别 强 调 了 如 何 才 能 稳定 地 捕获 并 重 现 bug,， 
以 便 给 后 面 两 个 阶段 打下 民 好 的 基础 。 


本 书 或 许 还 能 促使 大 家 思考 另外 一 个 问题 ， 那 融 是 : 在 修复 元 bug 之 后 ,怎样 防止 有 朋 人 向 程序 中 引入 类 似 的 bug? 这 可 以 从 
代码 质量 与 测试 两 方面 入 手 。 提 高 代码 质量 ， 能 够 减少 程序 员 对 代码 的 误解 ， 进 而 降低 引入 bug 的 概率 ;而 对 测试 进行 完善 ， 则 
能 够 提 毅 捕获 很 多 问题 ， 从 而 不 会 使 这 些 问题 逐渐 积累 成 复杂 的 bug。 这 些 理念 ， 作 者 在 书 中 也 时 单 会 提 到 。 


总 之 ， 这 是 一 本 可 以 打开 思路 并 拓宽 眼界 的 书籍 ， 大 家 不 妨 在 自己 惯用 的 调试 环境 之 外 ， 多 安 试 一 下 作者 所 介绍 的 其 他 技 
法 、 工 具 和 语言 ， 以 求 达 到 | 旧 学 与 新 知 的 融合 。 

翻译 本 书 的 过 程 中 ， 我 得 到 了 机 械 工业 出 版 社 华 草 公司 诸位 编辑 和 工作 人 员 的 帮助 ， 在 此 深 表 谢意 。 

由 于 译 者 水 平 有 限 ， 不 足 与 疏漏 之 处 请 大 家 上 友 邮 件 至 eastarstormlee@gmailcom， 或 访问 


github.com/jeffreybaoshenlee/debugging-errata/issues 留 言 ， 给 我 以 批评 和 指教 。 


KFA 


我 们 在 开 肥 软件 或 对 运行 软件 的 系统 进行 管理 的 时 候 ， 经 弟 会 遇 到 故障 。 有 些 故障 是 因 代 码 问题 而 引 友 的 编译 错误 ， 这 种 故 
障 可 以 在 短 时 间 内 修复 ;还 有 一 些 故 障 则 会 使 大 型 系统 停机 ， 这 将 给 公司 市 来 每 小 时 数 百 万 的 损失 (具体 货币 单位 依 情况 而 
E) 。 要 想 成 为 一 名 优秀 的 专业 人 士 ， 你 束 必 须 在 友 生 故障 时 迅速 找 出 背后 的 原因 并 加 以 修复 。 这 正 是 调试 的 意义 所 在 ， 也 是 本 
书 所 要 谈论 的 主题 。 


本 书 是 写 给 有 一 定 经 验 的 开 友 者 看 的 ， 而 不 是 一 本 介绍 性 质 的 读物 。 它 假设 读者 能 够 理解 用 各 种 编程 语言 所 写成 的 代码 片 
段 ， 并 且 会 使 用 局 级 的 GUI 编程 工具 以 及 基于 命令 行 的 编程 工具 。 另 一 方面 ， 我 会 在 书 中 详细 摘 述 调试 技巧 ， 因 为 我 友 现 : 即便 
是 对 某 些 开发 方法 很 有 经 验 的 编程 专家 ， 也 依然 需要 一 些 手 把 手 的 指导 ， 才 能 够 擎 握 其 他 的 开 上 友 方 法 。 此 外 ， 如 果 你 已 经 化 了 至 
少 几 个 月 时 间 来 调试 一 些 颇 具 规 模 的 软件 ， 那 么 应 该 会 更 容易 理解 书 中 某 些 高 级 技巧 所 适用 的 场合 。 


ZS Aries ACB 


本 书 所 要 讲解 的 调试 其 识 ， 包 括 与 调试 有 关 的 策略 、 工 具 及 方法 。 我 们 当前 在 开 友 并 运作 一 款 复杂 的 计算 系统 时 ， 可 能 会 过 
到 各 种 问题 ， 而 这 些 调试 知识 ， 则 使 大 家 能 够 应 对 这 些 问题 。 过 去 我 们 所 说 的 调试 ， 主 要 是 措 检 测 并 修复 程序 错误 ， 而 当前 却 很 
少 有 哪个 程序 会 瑰 立 地 运作 ， 即 便 是 一 个 很 小 的 程序 ， 也 会 与 外 部 的 程序 库 相 链接 ( 通 弟 是 动态 链接 ) 。 更 为 复杂 的 程序 会 运行 
在 应 用 程序 服务 器 中 ， 会 调用 Web 服 务 ， 会 使 用 关系 型 数据 库 及 NoSQL 数 据 库 ,会 从 目录 服务 器 上 获取 数据 ， 会 运行 外 部 的 程 
序 ， 会 利用 其 他 的 中 间 件 ， 也 会 纳入 很 多 第 三 万 的 软件 包 。 于 是 ， 要 想 令 整个 系统 及 服务 正常 地 运作 ， 葡 必须 确保 其 中 的 组 件 不 
会 上 友 生 故障 ， 这 些 组 件 可 能 是 由 公司 内 部 人 员 所 开 友 的 ， 也 可 能 是 由 第 三 万 所 提供 的 ， 它 们 所 在 的 主机 或 许 分 布 在 全 球 各 地 。 为 
了 应 对 这 种 局 面 ， 软 件 开 上 友 行 业 开始 重视 DevOps 规 程 ， 这 套 规 程 下 在 同时 强调 开 友 者 和 其 他 | 专业 人 员 所 应 担负 的 职责 。 与 乙 
类 似 ， 本 书 想 使 读者 在 面 对 故 障 时 也 能 够 具备 这 样 一 种 全 面 的 观念 ， 因 为 在 面 对 一 些 极为 困难 的 问题 时 ， 我 们 通常 无 法 立刻 判断 
出 该 问题 到 底 是 由 哪 一 个 软件 组 件 所 引 友 的 。 


本 书 的 内 容 按照 从 一 般 到 特殊 的 顺序 来 进行 安排 。 首 先 讲解 调试 策略 (第 1 草 ) 、 调 试 方法 (第 2 章 ) 以 及 调试 时 所 用 的 工 
具 与 技术 (3m) ， 这 些 知识 使 我 们 能 够 应 对 各 种 软件 故障 及 系统 故障 。 接 下来， 讨论 在 调试 工作 的 各 个 阶段 所 用 到 的 具体 技 
巧 ， 也 就 是 在 使 用 调试 器 (第 4 章 ) 、 编 写 程 序 (第 ? 章 ) 、 编 译 软件 (BOR) 以 及 运行 系统 (第 7 草 ) 时 所 用 到 的 调试 技巧 。 
与 多 线程 和 并 及 有 关 的 bug 是 很 难 寻 找 的 ， 所 以 最 后 我 们 专门 用 一 章 (第 8 草 ) 来 讲解 特定 的 调试 工具 及 调试 技术 ， 使 大 家 能 够 
找 出 这 些 bug。 


怎样 运用 书 中 的 内 容 


你 可 以 从 第 一 页 读 起 ， 一 页 一 页 往 后 翻 ， 直 到 看 完 。 但 是 别 急 ， 其 实 还 有 更 好 的 读 法 。 书 里 给 出 的 建议 可 以 分 成 以 下 三 种 。 


. 策略 与 方法 。 这 些 内 容 包 括 我 们 在 面 对 故 障 时 所 应 具备 的 知识 以 及 所 应 采取 的 做 法 。 本 书 第 1 章 和 第 2 章 里 面 的 内 容 就 属于 
这 一 类 ， 此 外 ， 第 5 章 中 的 很 多 技巧 也 可 以 归 入 此 类 。 阅 读 并 理解 了 这 些 内 容 之 后 ， 你 需要 在 工作 中 对 其 加 以 运用 ， 以 便 逐 渐 养 
成 习惯 。 调 试 程序 的 时 候 ， 我 们 需要 系统 地 反思 自己 所 用 的 办 法 ， 如 果 某 个 办 法 行 不 通 ， 那 就 应 该 把 自己 所 经 历 的 路 线 回顾 一 
遍 ， 这 样 可 以 帮助 我 们 发 现 解决 该 问题 的 其 他 办 法 。 


: 技巧 与 工具 。 这 些 内 容 值 得 大 家 投入 时 间 去 学 习 ， 它 们 主要 出 现在 第 3 章 里 面 ， 其 他 章节 中 的 某 些 内 容 (如 第 36 条 ) 也 同 
样 可 以 归 为 这 一 类 ， 我 们 可 以 在 日 常 工作 中 运用 这 些 内 容 来 解决 问题 。 大 家 应 该 花 时 间 去 学 习 这些 内 容 ， 并 且 要 逐步 实践 它们 。 
这 或 许 意味 着 我 们 要 放弃 自己 所 熟悉 的 调试 工具 ， 而 去 使 用 一 些 学 习 曲 线 较 为 陡峭 但 是 功能 上 更 加 先进 的 调试 工具 ， 那 些 工具 虽 
然 一 开始 学 起 来 比较 困难 ， 可 是 从 长 远 来 看 ， 却 能 够 帮助 你 成 为 调试 方面 的 专家 。 


- 调试 的 思路 。 当 我 们 遇 到 困难 时 ， 可 以 根据 这 些 思路 来 找寻 合适 的 技巧 。 这 些 内 容 不 一 定 每 天 都 会 用 到 ， 但 是 当 你 遇 到 一 
个 琢磨 不 透 的 问题 时 ， 它 可 以 帮助 你 节省 一 整 天 【或 者 说 至 少 几 小 时 ) 的 时 间 。 比 如 ， 如 果 你 不 清楚 自己 所 写 的 C 和 C++ 代码 为 
什么 无 法 编译 ， 那 么 第 50 条 或 许 能 给 你 一 些 局 发 。 大 家 应 该 快速 浏览 这 些 内 容 ， 使 自己 意识 到 它们 可 以 在 菜 些 场合 派 上 用 场 ， 等 


到 真正 需要 使 用 它们 的 时 候 ， 再 去 详细 研究 。 


本 书 对 软件 开 友 的 其 他 方面 所 起 的 作用 


本 书 里 的 所 有 条 目 都 是 针对 故障 的 诊断 与 调试 而 写 的 ， 不 过 其 中 有 很 多 建议 同样 可 以 用 来 缩减 代码 中 的 bug 数 量 ， 并 且 可 以 
使 你 在 遇 到 这 样 的 bug 时 能 够 更 为 迅速 地 将 其 修复 。 严 谨 的 调试 技术 与 优秀 的 软件 开 友 万 式 之 辣 能 够 形成 民 性 的 循环 ， 因 此 ， 书 
中 的 建议 对 于 你 当前 或 者 将 来 要 面 对 的 软件 设计 、 软 件 构建 以 及 软件 管理 工作 ， 是 可 以 起 到 帮助 作用 的 。 


设计 软件 的 时 候 ， 应 该 苯 循 下 列 建议 : 

` 使 用 与 其 角色 相称 的 高 级 机 制 (参见 第 47 条 和 第 66 条 ) © 

` 提供 调试 模式 (参见 第 6 条 和 第 40 条 ) 。 

` 提供 对 系统 操作 进行 监控 与 记录 的 机 制 (参见 第 27 条 、 第 41 条 和 第 56 条 ) o 

` 提供 一 个 选项 ， 使 得 开发 者 可 以 用 Unix 命 令 行 工 具 来 编写 与 组 件 有 关 的 脚本 (参见 第 22 条 ) 。 

: 把 内 部 的 错误 暴露 出 来 ， 使 其 表现 为 软件 故障 ， 而 不 要 将 其 隐藏 起 来 ， 使 其 成 为 软件 中 的 不 稳定 因素 《参见 第 55 条 ) 。 
- 提供 一 种 方式 ， 使 得 开发 者 能 够 在 软件 发 生 故 障 之 后 获得 内 存 转 储 (memory dump) 信息 (参见 第 35 条 和 第 60 条 ) 。 
. 从 数量 和 范围 方面 ， 尽 量 缩减 软件 在 执行 时 的 不 确定 因素 (参见 第 63 条 ) 。 

构建 软件 的 时 候 ， 应 该 遵循 下 列 建议 : 

征求 同事 的 意见 (参见 第 39 条 ) 。 

- 为 你 所 编写 的 每 个 例 程 创建 单元 测试 (参见 第 42 条 ) 。 

- 用 断言 来 验证 自己 所 做 的 假设 是 否 成 立 ， 以 及 代码 的 功能 是 否 正 确 (参见 第 43 条 ) o 

尽量 把 代码 写 得 易于 维护 ， 也 就 是 要 写 出 易 读 、 稳 定 且 便 于 分 析 和 修改 的 代码 (参见 第 46 条 和 第 48 条 ) 。 

» 在 构建 程序 时 避免 不 确定 的 因素 (参见 第 52 条 ) 。 

在 对 软件 的 开 友 及 运作 进行 管理 时 ， 应 该 苯 循 下 列 建议 (无论 是 要 管理 一 个 团队 ， 还 是 只 管理 自己 的 沈 程 ) : 
: 用 适当 的 事务 追踪 系统 ， 把 遇 到 的 问题 记录 下 来 〈 参 见 第 1 条 ) © 

- 对 各 种 有 待 处 理 的 事务 进行 分 类 ， 并 排 定 其 优先 次 序 (参见 第 8 条 ) 。 

- 把 对 软件 所 做 的 修改 适当 地 记录 在 修订 管理 系统 中 ， 并 且 对 该 系统 进行 较 好 的 维护 (参见 第 26 条 ) 。 

- 渐进 地 部 署 软件 ， 使 得 我 们 可 以 在 新 旧版 本 之 间 进 行 对 比 (参见 第 5 条 ) 。 

: 尽量 采用 各 种 不 同 的 工具 来 开发 ， 并 试 着 把 程序 部 署 在 各 种 环境 中 (参见 第 7 条 ) o 

: 经 常 对 工具 与 程序 库 进行 更 新 (参见 第 14 条 ) 。 


` 如 果 使 用 了 第 三 方 的 程序 库 ， 那 么 可 以 考虑 购买 该 程序 库 的 源 代码 (参见 第 15 条 ) ; 考虑 购买 一 些 较为 完善 的 工具 来 锁定 


那些 不 大 容易 找到 的 错误 (参见 第 51 条 、 第 59 条 、 第 62 条 、 第 64 条 及 第 65 人 条 ) 。 
. 寻找 专门 的 工具 来 调试 硬件 接口 及 座 入 式 系 统 (参见 第 16 条 ) 。 


“ 使 得 开发 者 能 够 远程 调试 软件 (参见 第 18 条 ) o 


“ 对 于 消耗 资源 较 多 的 故障 诊断 任务 来 说 ， 要 留 出 足够 的 CPU 及 磁盘 资源 (参见 第 19 条 ) 。 

- 鼓励 开发 者 之 间 通 过 代码 评审 及 编程 指导 等 手段 进行 协作 (参见 第 39 条 ) 。 

- 鼓励 大 家 进行 测试 驱动 开发 (参见 第 42 条 ) 。 

在 构建 软件 的 时 候 ， 要 做 性 能 分 析 、 静 态 分 析 以 及 动态 分 析 (参见 第 57 条 、 第 51 条 及 第 59 条 ) ， 并 且 要 打造 一 套 迅 速 而 高 
效 的 构建 流程 与 测试 流程 (参见 第 53 条 及 第 11 条 ) 。 
对 书 中 术语 的 说 明 


本 书 所 说 的 fault (错误 ) 一 词 ， 遵 循 |1SO-24765 一 2010 (Systems and software engi-neering 一 一 Vocabulary) 标准 ， 
CHEB: “计算 机 程序 里 面 某 个 不 正确 的 步骤 、 流 程 或 数据 定义 。” 这 也 称 为 defect (E) . EARLIER, Belin 
做 bug。 与 之 类 似 ， 本 书 所 用 的 failure (故障 ) 一 词 ， 也 遵循 1SO-24765 一 2010 标 准 ， 它 指 的 是 : “ 因 系 统 或 系统 组 件 未 能 在 
规定 限制 乙 下 执行 所 需 功能 而 引发 的 事件 。” 故障 可 以 表现 为 程序 妥 溃 、 程 序 头 结 或 是 程序 的 结果 有 误 。 故 障 一 词 强调 的 是 程序 
运行 的 后 果 ， 而 错误 一 词 强调 的 则 是 我 们 所 遇 到 或 使 用 的 某 个 程序 本 身 有 问题 。 不 过 有 的 时 候 ， 大 家 也 会 用 错误 及 缺陷 这 两 个 词 
来 指 代 故 障 ，1SO 标 准 也 承认 了 这 一 点 。 笔 者 在 本 书 中 会 按照 上 述 定义 来 区 分 这 几 个 词 ， 然 而 在 语 境 比较 明确 的 情况 下 ， 我 通常 
也 会 用 问题 (problem) 一 词 来 指 代 错误 〈 如 “代码 有 问题 ”) 或 故障 (如 “可 以 重 现 的 问题 ”) ， 这 样 写 能 够 使 本 书 读 起 来 更 
加 流畅 ， 而 不 至 于 区 成 一 份 法 律 文件 。 


Unix 操 作 系 统 的 shell、 程 序 库 以 及 工具 ， 目 前 都 可 以 运行 在 各 种 各 样 的 平台 上 。 笔者 采用 Unix 一 词 来 指 代 遭 从 Unix 原 则 及 
API 的 任何 一 种 系统 ， 包 括 Apple 的 Mac OS X、 各 种 GNU/Linux 发 行 版 (如 Arch Linux, CentOS, Debian, Fedora, 
openSUSE, Red Hat Enterprise Linux、9lackware 及 Ubuntu) 、 直 接 从 Unix 继 承 而 来 的 系统 (如 AlIX、HP-UX 及 Solaris) 、 
各 种 BSD 衍 生 系统 (如 FreeBSD、OpenBSD 及 NetBSD) ， 以 及 运行 在 Windows 系 统 上 的 Cygwin。 


本 书 中 所 列 出 的 C++、Java 或 Python 代码 ， 针 对 的 也 是 较 新 的 编程 语言 版 本 ， 不 过 笔者 会 避 开 那些 奇怪 的 或 是 刚刚 推出 的 
寺 性 。 


书 里 面 会 出 现 “ 你 的 代码 ”和 “你 的 软件 ”这 两 种 说法 ， 它 们 指 的 是 你 正在 调试 的 代码 以 及 正在 开 发 的 软件 。 这 两 种 说 法 听 
起 来 比较 简洁 ， 而 且 也 上 暗合 了 一 种 对 代码 所 有 权 的 宣示 ， 这 对 于 软件 开 友 人 员 来 说 是 十 分 重要 的 。 


笔者 所 说 的 例 程 (routine) 一 词 ， 是 指 可 供 调用 的 代码 单元 ， 如 成 员 函 数 、 方 法 、 函 数 、 过 程 以 及 子 例 程 等 。 
Visual Studio 及 Windows 指 的 是 Microsoft 公 司 的 相关 产品 。 
修订 控制 系统 (revision control system) 及 版 本 控制 系统 (version control system) ， 是 指 像 Git 这 样 能 够 对 软件 配置 进 


行 管 理 的 工具 。 


排版 约定 


Unix 命 令 行 选项 使 用 --this 这 样 的 形式 ， 与 该 选项 等 价 的 单字 母 选项 使 用 -t 这 样 的 形式 。Windows 工 具 中 的 对 应 选项 ,使 
用 /this 这 样 的 形式 。 


:按键 采用 Shift-F11 这 样 的 形式 。 


- 文件 路 径 采 用 /etc/motd 这 样 的 形式 。 


菜单 操作 采用 Debug-New Breakpoint-Break at Function 这 样 的 形式 。 
“ 为 了 缩短 篇 幅 ， 笔 者 会 省 略 C++ 代 码 中 的 std:: 限 定 符 及 std 名 称 空间 。 


` 描述 GUI (ABA PRO) 工具 时 ， 笔 者 所 说 的 功能 针对 的 是 撰写 本 书 时 所 能 找到 的 最 新 版 本 。 如 果 你 所 使 用 的 是 另外 一 
个 版 本 ， 那 么 请 参照 对 应 的 菜单 或 窗口 来 进行 操作 ， 也 可 以 在 那个 版 本 的 文档 中 查找 对 应 功能 的 操作 办 法 。 值 得 注意 的 是 ， 命 令 
行 工 具 的 界面 几 十 年 来 一 直 都 比较 稳定 ， 而 不 像 GUI 工 具 那 样 ， 每 个 版 本 都 会 有 一 些 新 的 东西 。 大 家 可 以 从 这 个 现象 中 推出 很 多 
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代码 及 勘误 


泄 例 代 码 及 丙 文 原版 书 的 勘误 表 请 参见 www.spinellis.gvVdebugging。 
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高 的 办 法 。 


第 1 条 : 通过 事务 人 姐 味 系统 处 理 所 有 的 问题 


请 想象 这 样 一 种 场景 : George 在 电话 里 朝 你 大 吼 ， 说 你 开发 的 那个 应 用 程序 “运行 不 了 ” ， 于 是 你 赶紧 把 问题 写 在 便签 
上 ， 然 后 把 它 贴 在 显示 器 旁边 ， 显 示 器 周围 还 有 很 多 类 似 的 纸 条 。 现 在 你 开始 回想 ， 自 己 到 底 有 没有 把 新 版 程序 所 需 的 最 新 库 文 
件 上 友 给 George。 实 际 上 ， 我 们 不 应 该 这 样 来 处 理 问题 ， 而 是 应 该 改 用 下 面 的 办 法 。 


首先 ， 要 保证 有 一 套 事 务 姐 踪 系 统 (issue-tracking system) 可 供 使 用 。 很 多 开源 软件 库 ， 如 GitHub 和 GitLab 等 ， 都 提供 
基本 的 事务 追踪 系统 ， 该 系统 与 它们 所 提供 的 其 他 功能 是 集成 在 一 起 的 。 有 些 组 织 使 用 一 种 名 为 J 必 RA 的 专 有 系统 ， 这 种 系统 要 复 
杂 得 多 ， 它 可 以 在 企业 内 部 运行 ， 也 可 以 作为 服务 来 运行 。 还 有 一 些 组 织 使 用 开源 替代 品 ， 如 Bugzilla、Launchpad、OTRS、 
Redmine 或 者 Trac。 选 择 哪 个 系统 并 不 重要 ， 重 要 的 是 必须 保证 所 有 的 事务 都 记录 在 这 个 系统 里 面 。 


如 果 某 个 问题 没有 记录 在 事务 追踪 系统 中 ， 那 我 们 就 拒绝 处 理 该 问题 。 坚 持 使 用 这 样 的 系统 ， 能 够 带 来 下 面 几 个 好 处 : 
: 可 以 看 见 调试 工作 所 取得 的 进展 。 

o 可 以 对 软件 的 发 行进 行 追 踪 与 规划 。 

- 帮助 我 们 确定 各 种 工作 项 (work item) 之 间 的 优先 次 序 。 

“ 帮助 我 们 把 常见 的 事务 及 其 解决 方案 整理 成 文档 。 

` 防止 我 们 遗漏 某 些 问题 。 

“ 可 以 自动 生成 发 行 说 明 (release note) o 

` 可 以 用 作 知 识 库 ， 使 我 们 对 软件 中 的 缺陷 进行 估量 及 反思 ， 并 从 中 总 结 经 验 。 


对 于 公司 里 面 那些 不 必 杀 目 汇报 问题 的 局 层 员工 来 讽 ， 你 可 以 代 他 们 汇报 问题 。 如 果菜 个 问题 是 你 目 己 友 现 的 ， 那 你 也 可 以 
目 己 把 这 个 问题 提交 到 系统 里 面 。 有 一 些 公司 规定 : 在 修改 代码 乙 前 ， 必 须 先 指 明 这 次 修改 所 涉及 的 事务 。 


我 们 还 要 保证 的 是 : 每 一 项 事务 都 能 够 精确 地 描述 问题 的 重 现 方式 。 最 好 能 在 其 中 给 出 一 个 简短 (short) 、 自 足 (self- 
contained) 且 正 确 (correct， 也 融 是 可 以 正确 编译 并 运行 ) 的 例子 (example) ， 即 SSCCE。 我 们 可 以 把 这 个 例子 直接 前 下 
来 ， 粘 贴 到 应 用 程序 中 ， 以 便 重 现 它 所 要 说 明 的 问题 (参见 第 10 条 ) 。 为 了 使 大 家 能 够 写 出 有 效 的 错误 报告 (bug report) , 
我 们 应 该 制订 一 份 规 沧 ， 并 劝说 所 有 人 都 认真 遵照 这 份 规 沁 来 撰写 报告 。 (我 看 到 有 一 家 公司 把 这 些 规 筷 贴 在 出 所 门 上 。) 


此 外 ， 错 误 报 告 还 必须 具备 精确 的 标题 (precise title) ， 并 写 明 bug 的 优先 级 (priority) 、 严 重 程度 (severity) 、 受 影 
响 的 利益 相关 者 (stakeholder) ， 以 及 该 bug 的 发 生 情境 (environment) 。 在 填写 这 些 内 容 时 ， 要 注意 以 下 几 点 : 


. 精准 的 标题 使 我 们 能 够 在 事务 汇总 报告 中 迅速 找 出 这 个 bug。 用 “程序 崩溃 ”这 几 个 字 做 标题 是 很 精 糕 的 ， 应 该 改 成 “ 正 
在 保存 时 单 击 刷新 按钮 ， 会 使 程序 衣 渍 ”。 


严重 程度 能 够 帮助 我 们 判断 bug 的 优先 级 。 与 数据 丢失 有 关 的 问题 当然 是 很 严重 的 ， 而 另外 一 些 无 关 紧 要 的 问题 ， 或 是 可 
以 用 某 种 明确 的 方式 来 绕 过 的 问题 ， 则 显得 不 那么 严重 。 团 队 可 以 根据 bug 的 严重 程度 来 对 清单 里 面 的 各 项 事务 进行 分 类 ， 以 决 
A 


定 哪些 事务 需要 立刻 解决 ， 哪 些 可 以 稍 后 解决 ， 哪 些 应 该 忽略 。 


. 对 事务 进行 分 类 并 排 定 其 次 序 之 后 ， 就 可 以 把 结果 填写 在 优先 级 这 一 栏 中 了 ， 这 使 得 我 们 能 够 据 此 安排 各 项 事务 的 处 理 顺 
序 (参见 第 8 条 ) 。 在 很 多 项 目 中 ，bug 的 优先 级 是 由 开发 者 或 项 目 主 管 来 设置 的 ， 如 果 允 许 终 端 用 户 来 设置 ， 那么 他 们 总 是 会 把 
自己 提交 的 所 有 bug 都 设置 成 最 高 优先 级 。 虽 说 管理 人 员 、 客 户 代 表 、 其 他 团队 的 开发 者 以 及 销售 人 员 都 宣称 自己 提交 的 事务 应 
该 最 先 得 到 处 理 ， 但 我 们 还 是 应 该 根据 实际 情况 来 设置 优先 级 。 


. 在 事务 中 指出 受到 影响 的 利益 相关 者 ， 可 以 帮助 团队 获知 与 该 事务 有 关 的 其 他 一 些 信 息 ， 并 帮助 产品 拥有 者 来 决定 事务 的 
优先 次 序 。 有 些 公 司 甚至 会 在 利益 相关 者 后 面 标注 他 们 给 公司 带 来 的 年 度 收 入 。 (例如 ，“ 由 Acme 所 提交 ， 该 客户 给 公司 带 来 
的 年 度 收入 是 25 万 元 。 ”) 


“ 对 于 某 些 难以 捕获 的 bug 来 说 ， 情 境 描述 可 以 提供 线索 ， 使 得 我 们 能 够 重 现 这 种 bug。 不 要 强 连 用 户 填写 过 多 的 信息 ， 例 


如 ，PC 的 序列 号 、BIOS 的 日 期 ， 以 及 系统 中 每 一 个 程序 库 的 版 本 等 ， 这 样 做 会 令 用 户 觉得 非常 麻烦 ， 从 而 跳 过 这 些 内 容 。 我 们 
只 应 该 询问 与 bug 窗 切 相 关 的 那些 细节 ， 对 于 Web 应 用 程序 来 说 ， 浏 览 器 的 信息 自然 是 相当 重要 的 ， 而 对 于 移动 应 用 程序 来 说 ， 
我 们 或 许 想 知道 设备 的 制造 商 及 型 号 。 如 果 能 够 通过 软件 来 自动 提交 这 些 信息 ， 那 就 更 好 了 。 


使 用 事务 追 味 系统 时 ， 我 们 一 定 要 通过 它 来 记录 进度 。 大 部 分 追 中 系统 都 允许 用 尸 在 每 个 事务 后 面 持续 追加 各 种 形式 的 评 
论 。 这 些 文档 可 以 把 调查 及 修复 bug 时 所 经 历 的 步骤 记录 下 来 ， 其 中 也 可 以 包括 修复 bug 时 所 直到 的 困境 。 这 样 做 可 以 使 公司 内 
的 工作 更 加 透明 。 我 们 应 该 精确 地 写 出 记录 或 追踪 程序 行为 时 所 执行 的 各 种 命令 ， 这 样 做 很 有 用 ， 因 为 明天 你 可 能 残 要 重新 执行 
这 些 命令 ， 你 或 你 的 同事 也 有 可 能 要 在 一 年 之 后 寻找 一 个 类 似 的 bug。 当 你 平 吉 地 完成 了 为 期 一 周 的 bug 搜 寻 工 作 之 后 ， 这 些 笔 
记 可 以 帮助 你 回顾 工作 内 容 ， 使 你 能 够 更 好 地 把 这 些 天 所 做 的 事情 解释 给 团队 或 管理 者 听 。 


AA 
. 通过 事务 追踪 系统 来 处 理 所 有 的 问题 。 


-确保 每 项 事务 都 能 够 以 短小 、 上 自足 而 又 正确 的 范例 (SSCCE) ， 精 确 地 描述 出 该 问题 的 重 现 方式 。 


党 


事务 进行 分 类 ， 并 根据 每 项 事务 的 优先 级 与 严重 程度 来 安排 工作 。 


. 通过 事务 追踪 系统 来 记录 进度 。 


第 2 条 : 人 在 网 上 确切 地 得 询 你 所 遇 到 的 问题 ， 以 寻求 解决 问题 的 灵感 


现在 很 少 有 哪个 工作 场所 不 能 上 网 ， 如 果 在 一 个 无 法 上 网 的 地 方 开发 程序 ， 那 我 的 效率 会 很 低 。 遇 到 代码 错误 的 时 候 ， 我 们 
应 该 上 网 搜索 ， 或 者 与 同事 一 起 寻找 解决 办 法 。 


有 一 个 相当 有 效 的 搜索 技巧 ， 是 把 由 第 三 方 组 件 所 给 出 的 错误 消息 打上 双 引 号 ， 并 将 其 粘贴 到 浏览 器 的 搜索 框 里 面 。 把 待 搜 
索 的 内 容 放 在 一 对 双 引 号 中 ， 意 思 是 要 告诉 搜索 引擎 : 只 搜索 与 该 内 容 精 确 匹 配 的 页 面 。 这 样 做 可 以 使 搜索 结果 更 加 准确 。 还 有 
一 个 很 有 用 的 技巧 ， 是 把 与 错误 有 关 的 程序 库 或 中 间 件 的 名 称 、 对 应 的 类 名 或 方法 名 ， 以 及 所 返回 的 错误 代码 ， 也 一 并 放 在 搜索 
框 里 面 。 要 碍 找 的 函数 名 称 越 罕见 ， 搜 索 到 的 结果 也 惑 越 确切 ， 例 如 ， 搜 寻 PlgBlt 所 得 到 的 结果 ， 要 比 搜寻 BitBlt 好 得 多 。 此 
外 ， 我 们 也 应 该 试 着 搜索 意思 相近 的 词 ， 例 如 ， 除 了 搜索 “hangs” (G) ， 还 可 以 搜索 “freezes” (冻结 ) ， 除 了 搜 
索 “disabled” (禁用 ) ， 还 可 以 搜索 “grayed” (BR). 


要 想 解 决 一 些 与 API 调 用 有 关 的 难题 ， 我 们 通常 可 以 观察 其 他 人 是 如 何 使 用 这 些 API 的 。 我 们 可 以 看 看 开源 软件 如 何 使 用 某 
个 冰 数 ， 如 何 对 传 给 该 冰 数 的 参数 进行 初始 化 ， 以 及 如 何 解 读 遂 数 所 传 回 的 结果 。 在 这 种 情况 下 ， 专 门 用 来 搜索 代码 的 引擎 (如 
Black Duck Open Hub Code Search) ， 要 比 Google 那 样 的 通用 引 警 更 好 。 例 如 ， 如 果 在 这 个 搜索 引擎 局 里 面 查找 mktime， 
并 且 只 看 与 某 个 项 目 有 关 的 代码 ， 而 过 渡 掉 程 序 库 的 声明 及 定义 ， 那 我 们 就 会 友 现 下 面 这 样 的 代码 片段 : 


nowtime = mktime(time->tm_year+1900, time->tm_mon+1, 
time->tm_mday, time->tm_hour, time->tm_min, 
time->tm_sec); 


通过 上 述 代码 片段 ， 我 们 可 以 看 出 : mktime 函 数 与 localtime 函 数 有 所 不 同 ， 它 要 求 传 入 的 年 份 必须 是 完整 的 数值 ， 而 不 是 
距离 1900 年 的 偏 移 量 ， 而 且 它 的 月 份 是 从 1 开始 计算 的 。 这 两 个 地 方 经 常会 出 错 ， 对 于 那些 没有 仔细 阅读 函数 文档 的 人 来 说 ， 更 


是 容易 在 调用 时 传 入 错误 的 参数 。 


在 查看 由 搜索 引擎 所 给 出 的 结果 时 ， 我 们 要 注意 这 些 结果 是 从 哪个 网 站 抓 取 到 的 。stackExchange 旗 下 的 网 站 (如 Stack 
Overflow) 通过 很 多 措施 来 鼓励 用 尸 进行 有 效 的 交流 ， 因 此 ， 在 由 搜索 引擎 所 给 出 的 结果 中 ， 有 很 多 比较 切 题 的 讨论 及 管 案 都 
来 目 这 个 系列 的 网 站 。 在 浏览 stack Overflow 上 面 的 答案 时 ， 不 仅 要 看 提问 者 所 接受 的 那个 回答 ， 而 且 还 要 看 看 其 他 那些 赞同 
数量 比较 高 的 回答 。 除 了 答案 的 正文 ,我们 还 可 以 天 注 答案 下 面 的 评论 ， 因 为 很 多 人 都 会 通过 评论 的 万 式 来 给 出 新 的 消息 ， 例 
如 ， 有 人 会 在 评论 中 告诉 大 家 ， 目 己 上 友 现 了 一 个 可 以 避免 错误 的 新 办 法 。 


如 果 你 把 目 己 精心 构造 的 关键 词 放 入 搜索 引擎 忆 后 ， 并 没有 得 到 有 用 的 结果 ， 那 么 或 许 意味 着 你 找 错 了 目标 。 对 于 第 见 的 程 
序 库 与 软件 来 说 ， 你 不 太 可 能 成 为 第 一 个 遭遇 某 问题 的 人 ， 因 此 ， 如 果 在 网 上 找 不 到 类 似 的 摘 述 ， 那 可 能 说 明 你 对 问题 的 判断 友 
生 了 偏差 。 例 如 ， 你 本 来 以 为 程序 崩溃 的 原因 是 基 个 API 函 数 的 实现 有 bug， 但 实际 上 却 是 传 入 的 日 期 有 误 。 


如 果 网 上 找 不 到 答案 ， 那 你 可 以 在 Stack Overflow 网 站 提问 ， 把 自己 所 面 对 的 问题 描述 出 来 ， 然 而 ， 这 需要 花 一 定 的 时 间 
来 构建 一 个 简单 、 自 足 且 正确 的 光 例 (SSCCE) 。 凡 是 在 论坛 发 问 ， 都 应 该 遵循 该 SSCCE 原 则 ， 也 就 是 要 给 出 一 个 其 他 人 可 以 
直接 复制 、 粘 贴 并 编译 的 例子 ， 使 得 他 们 能 够 看 到 你 所 经 历 的 问题 (参见 第 10 条 ) 。 对 于 某 些 编程 语言 来 说 ， 甚 至 可 以 把 汽 例 
代码 藤 入 SourceLair 或 JSFiddle 这 样 的 在 线 IDE,， 令 大 家 能 够 在 网 上 直接 看 到 运行 效果 。sscce.org 网 站 详细 解释 了 应 该 怎样 针对 
具体 的 语言 和 拉 术 来 构造 民 好 的 范例 。Eric Raymond 所 写 的 文章 《How To Ask Questions The Smart Way》 也 与 这 个 话题 有 
天 ， 值 得 一 读 。 


笔者 友 现 : 只 要 我 能 够 恰当 地 摘 述 问题 ， 并 且 附 上 合适 的 范例 ， 那 么 该 问题 的 解决 方案 通 弟 束 会 目 然 地 浮现 出 来 。 束 算 我 目 
己 找 不 到 答案 ， 这 样 的 问题 也 可 以 吸引 一 些 懂行 的 人 过 来 进行 试验 ， 他 们 或 许 能 找到 办 法 。 


如 果 你 所 遇 到 的 问题 在 某 种 程度 上 与 开源 的 软件 库 或 程序 有 天 ， 而 且 你 认为 它们 的 代码 中 很 可 能 有 bug， 那 么 可 以 联系 其 开 
发 者 。 常 见 的 做 法 应 该 是 访问 那个 开源 项 目的 bug 追 路 系统 ， 并 在 上 面 提交 一 项 事务 。 提 交 的 时 候 ， 也 应 该 首先 确保 其 他 人 没有 
报告 过 类 似 的 bug， 并 且 要 把 重 现 该 问题 的 详细 步骤 准确 地 写 进去 。 如 果 那 球 软 件 没 有 bug 追 路 系统 ， 那 你 可 以 给 它 的 作者 友 邮 
件 ， 邮 件 要 写 得 相当 谨 愤 ， 描 梧 要 得 体 、 语 气 要 谦和 ， 因 为 大 部 分 开源 软件 的 开 友 者 都 不 是 你 的 雇工 。 


mr 
. 把 错误 消息 打上 双 引 号 ， 以 便 在 网 上 准确 地 进行 搜索 。 
` 认真 查看 StackExchange 系 列 网 站 上 面 的 回答 。 


> 如 果 上 述 两 种 办 法 都 不 见效 ， 那 你 可 以 自己 提问 或 提交 事务 。 


[1 该 引擎 现 已 停止 服务 ， 可 以 考虑 改 用 searchcode.com 等 引擎 。 译 者 注 


第 3 条 : 确保 出 置 条 件 与 后 置 条 件 都 能 够 得 到 满足 


修理 电子 设备 的 时 候 ， 我 们 首先 要 检查 供电 是 否 正常 ， 也 丈 是 检查 电流 有 没有 从 电源 模块 正确 地 流入 该 设备 的 电路 中 。 在 很 
多 情况 下 ， 这 项 检查 都 能 帮助 我 们 找 出 问题 。 计 算 机 程序 与 之 类 似 ， 很 多 问题 也 可 以 通过 对 例 程 的 入 口 点 (entry point) 与 出 


O (exit) 进行 检查 而 得 以 确定 。 入 口 点 就 是 前 置 条 件 (precondition) ， 它 指 的 是 程序 在 即将 执行 例 程 时 所 具备 的 状态 ， 以 及 
传递 给 该 例 程 的 输入 值 ， 出 口 则 是 后 置 条 件 (postcondition) ， 它 指 的 是 程序 执行 完 例 程 之 后 的 状态 及 其 返回 值 。 如 果 前 畦 条 


件 得 不 到 满足 ， 那 癌 明 用 来 设置 这 些 前 置 条 件 的 代码 里 面 有 错误 ， 各 是 后 置 条 件 得 不 到 满足 ， 则 襄 明 该 例 程 本 身 有 问题 。 如 果 两 


者 都 正确 ， 那 么 应 该 转向 其 他 地 方 去 寻找 bug。 


我 们 可 以 在 例 程 开 始 的 地 方 、 调 用 例 程 的 地 方 或 天 键 算法 开始 执行 的 地 方 设置 断 点 (参见 第 30 条 ) 。 为 了 判断 前 置 条 件 是 
否 得 到 满足 ， 我 们 应 该 仔细 检查 算法 的 参数 ， 包 括 传 入 的 参数 值 ， 调 用 方法 时 所 针对 的 对 象 ， 以 及 可 疑 代码 所 使 用 的 全 局 状态 。 
尤其 要 注意 以 下 几 扣 : 


. 找 出 那些 本 来 不 应 为 null， 但 实际 上 却 为 null 的 值 。 
` 调用 数学 兄 数 的 时 候 ， 确 保 传 入 的 值 位 于 该 函数 的 定义 域 之 内 ,例如 ， 调 用 log 吕 数 时 传 入 的 值 应 该 大 于 0。 
. 查看 对 象 、 结 构 体 与 数组 的 内 部 细节 ， 确 保 其 内 容 符合 要 求 。 这 也 可 以 帮 你 查 出 无 效 的 指针 。 


` 检查 变量 的 取 值 是 否 在 合理 范围 之 内 。 如 果 变 量具 有 6.89851e-308 或 61007410 这 样 的 可 疑 取 值 ， 那 通常 表明 它 还 没有 初始 


AG o 


- 检查 传 给 例 程 的 数据 结构 是 否 正确 ， 例 如 ，map 有 没有 包含 预期 的 键 与 值 ， 双 向 链表 (doubly linked list) 能 不 能 正确 地 遍 


JA o 


然后 ， 我 们 应 该 在 例 程 结 束 的 地 方 、 调 用 完 例 程 的 地 方 或 关键 算法 执行 完毕 的 地 方 设置 断 点 ， 以 判断 该 例 程 的 执行 效果 是 人 否 
正确 : 


: 计算 出 来 的 结果 看 上 去 合理 吗 ? 有 没有 处 在 预期 的 范围 之 内 ? 


. 如 果 结 果 合 理 ， 而 且 位 于 预期 的 范围 之 内 ， 那 么 实际 的 值 是 否 正确 ? 我 们 可 以 通过 手 算 来 演练 相应 的 代码 ， 以 验证 计算 机 
的 执行 结果 是 否 正 确 (参见 第 38 条 ) ， 也 可 以 将 执行 结果 与 已 知 的 正确 值 相 对 比 ， 或 是 采用 其 他 工具 或 方法 来 进行 验算 。 


. 例 程 的 副作用 是 否 符合 预期 ? 可 疑 代 码 所 接触 到 的 其 他 数据 是 否 遭 到 破坏 或 拥有 了 不 正确 的 取 值 ? 有 些 算法 在 遍历 数据 结 
构 时 ， 会 把 一 些 维护 其 工作 所 用 的 信息 记录 在 数据 结构 中 ， 对 于 这 些 算法 来 说 ， 尤 其 应 该 进行 这 样 的 检查 。 


章法 所 获得 的 资源 ， 如 文件 句柄 及 锁 ， 有 没有 正确 地 释放 ? 


同样 的 方法 也 可 以 用 在 更 为 高 层 的 操作 与 配置 环境 中 。 例 如 ， 如 果 要 验证 SQL 语 句 是 否 正 确 地 构建 了 某 张 表格 ,我 们 可 以 查 
看 它 所 扫 摘 的 那些 表格 及 视图 ， 并 且 看 看 它 构建 出 来 的 那 张 表格 是 什么 样子 。 如 果 要 判断 基于 文件 的 处 理 沅 程 是 否 正 确 ， 我 们 可 
以 检查 其 输入 文件 与 输出 文件 。 如 果 要 调试 某 个 构建 在 Web 服 务 上 面 的 操作 ， 我 们 可 以 检查 其 中 每 项 Web 服 务 的 输入 与 输出 。 
如 果 要 排解 整个 数据 中 心 的 故障 ， 我 们 可 以 检查 其 中 每 个 元 素 所 需要 的 及 所 提供 的 机 制 是 否 正确 ， 其 中 包括 网 络 连 接 、 DNS, 
共享 仓储 、 数 据 库 以 及 中 间 件 等 。 在 这 些 情况 下 ， 我 们 都 必须 杀 目 验证 (verify) ， 而 不 能 想当然 地 接受 假设 (assume) 。 


Br 


仔细 检查 例 程 的 前 置 条 件 与 后 置 条 件 。 


第 4 条 : 从 具体 问题 入 手 向 上 追查 bug， 或 从 高 层 程 序 入 手 向 下 追查 bug 


要 想 确 定 问 题 的 来 源 ， 通 党 有 两 种 办 法 。 一 种 是 从 问题 的 具体 表现 入 手 ， 同 上 追查 其 来 源 ， 还 有 一 种 是 从 应 用 程序 或 系统 的 
顶层 入 手 ， 逐 步 同 下 探 坦 ， 下 全 找到 其 根 产 。 对 于 有 菏 种 类型 的 问题 来 吕 ， 其 中 一 种 方法 的 效果 通 弟 要 比 另 一 种 更 好 ， 但 是 如 果 你 


在 采用 肝 个 方法 时 遇 到 了 困境 ， 那 么 不 妨 试 试 另 一 个 万 法 。 
如 果 问 题 表现 得 很 明确 ， 那 我 们 束 应 该 从 友 生 问题 的 地 万 入 手 ， 向 上 追查 bug。 这 可 以 分 成 三 种 情况 。 


第 一 种 情况 是 程序 有 衣 深 。 在 这 种 情况 下 ， 为 了 便于 排查 上 问题， 我们 通常 可 以 考虑 用 调试 器 来 运行 程序 ， 也 可 以 在 它 朋 演 的 时 
候 把 调试 器 连接 到 程序 上 面 ， 或 取得 内 存 转 储 信息 (参见 第 35 条 ) 。 我 们 要 检查 各 变量 在 程序 崩 演 时 的 取 值 ， 看 看 有 没有 null 
值 、 损 坏 的 值 或 未 初始 化 的 值 ， 这 些 都 有 可 能 是 引 友 月 演 的 原因 。 对 于 某 些 系统 来 咒 ， 我 们 可 以 通过 0xBAADFO00D (代表 bad 
food) 这 样 的 特殊 字 节 值 来 找 出 尚未 初始 化 的 变量 。 维 基 百 科 的 Magic Number 词 条 列 出 了 很 多 这 样 的 特殊 值 。 找 到 了 取 值 不 
正确 的 变量 乙 后 ， 束 应 该 设法 查 出 导致 此 现象 的 原因 ， 为 此 ， 我 们 可 以 试 厦 在 程序 友 生 衣 溃 的 这 个 例 程 乙 内 探查 ， 也 可 以 沿 背 调 
用 栈 向 上 寻找 不 正确 的 参数 或 与 衣 演 有 天 的 其 他 因素 (参见 第 3 条 和 第 32 条 ) 。 


如 果 这 些 办 法 找 不 到 原因 ， 那 么 可 以 用 调试 器 来 多 次 调试 程序 ， 每 次 都 在 有 可 能 友 生 运算 错误 的 地 方 附近 设置 断 点 。 像 这 样 
反复 地 设置 断 点 并 沿 着 调用 序列 上 移 ， 或 许可 以 帮助 我 们 查 出 问题 的 原因 。 


第 二 种 情况 是 程序 冰 结 (freeze) ， 这 与 程序 朋 溃 有 所 区 别 ， 因 此 我 们 向 上 排查 所 用 的 办 法 也 稍 有 不 同 。 我 们 可 以 用 调试 器 
来 运行 程序 ， 或 将 其 连接 到 程序 上 面 ， 然 后 用 相应 的 调试 器 命令 来 中 断 其 执行 过 程 (参见 第 30 条 ) ， 或 使 程序 生成 内 存 转 储 信 
息 (参见 第 35 条 ) 。 有 时 你 会 友 现 ， 程 序 所 执行 的 某 些 代码 ， 并 不 是 该 程序 目 身 的 代码 ， 而 是 某 个 程序 库 中 的 例 程 。 无 论 中 断 
发 生 在 何 处 ， 我 们 都 可 以 沿 着 调用 栈 向 上 排查 ， 以 便 确定 导致 程序 冻结 的 那个 循环 。 检 查 该 循环 的 终止 条 件 ， 并 试 着 找 出 它 永 远 
无 法 得 到 满足 的 原因 。 


第 三 种 情况 是 程序 在 出 现 问题 时 上 友 出 了 错误 消息 ， 此 时 我 们 首 移 应 该 在 程序 的 源 代码 里 找到 消息 文本 的 位 置 。 这 可 以 通过 
fgrep-r 命 令 轻松 地 实现 (参见 第 22 条 ) ， 该 命令 能 够 在 任意 深度 和 复杂 度 的 目录 绪 构 中 快速 定位 到 待 搜索 的 词句 。 对 于 当今 很 
多 本 地 化 的 软件 来 说 ， 设 命令 所 定位 到 的 内 容 ， 通 常 并 不 是 友 出 错误 消息 的 那 行 代码 ， 而 是 与 错误 消息 相对 应 的 那个 字符 串 资 源 
文件 。 例 如 ， 如 果 你 住 在 讲 西 班 牙 语 的 地 方 ， 并 且 正 在 调试 Inkscape 绘 图 程序 中 与 “Ha ocurrido un error al procesar el 
archivo XCF” 错 误 消 息 有 关 的 问题 ， 那 么 用 fgrep-r 命 令 搜 索 Inkscape 的 源 代 码 之 后 ， 它 束 可 能 会 把 你 引 向 名 为 es.po 的 西班牙 


语 字符 趾 翻译 文件 : 


#: ../share/extensions/gimp_xcf.py:43 
msgid “An error occurred while processing the XCF file." 
msgstr "Ha ocurrido un error al procesar el archivo XCF." 


从 字符 串 翻译 文件 中 ， 我 们 可 以 得 知 与 错误 消息 相对 应 的 源码 位 置 (对 于 上 例 来 说 ， 就 是 share/extensions/gimp xcf.py 
文件 的 第 43 行 ) 。 然 后 ， 我 们 可 以 在 发 出 错误 消息 的 源 代码 这 里 设置 断 点 ， 或 在 它 之 前 插入 log 语 句 ， 以 检查 程序 运行 到 此 处 所 
发 生 的 问题 。 在 这 种 情况 下 ， 我 们 有 可 能 也 要 后 退 几 行 或 沿 着 调用 栈 向 上 回溯 几 层 ， 才 能 够 找到 问题 的 根源 。 如 果 你 要 搜索 的 是 
非 ASCIl 文 本 ， 那 么 请 确保 命令 行 的 locale (区 域 ) 设置 与 源 代码 所 用 的 文本 编码 (如 UTF-8) 相符 。 


如 果 无 法 确定 与 故障 有 关 的 代码 到 底 在 哪里 ， 那 我 们 束 应 该 从 顶层 系统 开始 ， 逐 步 向 下 查找 故障 原因 。 从 定义 上 来 说 ， 这 种 
故障 通常 属于 系统 的 涌现 属性 (emergent property) ， 也 束 是 无 法 与 某 个 具体 部 分 直接 对 应 起 来 的 属性 ， 例 如， 性 能 问题 ( 软 
件 占 用 的 内 存 过 多 或 啊 应 时 间 过 长 ) 、 安 全 问题 (Web 应 用 程序 的 页 面 遭 到 破坏 ) 以 及 可 靠 性 问题 (软件 无 法 提供 预期 的 Web 


服务 ) 等 。 


要 想 由 上 而 下 地 排查 错误 ,我 们 需要 把 整个 程序 分 成 多 个 部 分 ， 然 后 分 别 判 断 每 一 部 分 在 引 友 当前 故障 的 各 种 因素 中 可 能 
多 大 的 比例 。 对 于 性 能 问题 来 涡 ， 常 见 的 办 法 是 做 profile (性 能 分 析 ) ， 也 就 是 用 一 些 工具 和 程序 库 来 帮助 我 们 寻找 占用 CPU 
俊 源 及 内 仔 过 多 的 例 程 。 对 于 安全 问题 来 说 ， 我 们 要 检查 代码 中 有 哪些 地 方 可 能 出 现 音 见 的 安全 漏洞 ， 如 缓冲 区 浴 出 、 代 码 注入 
以 及 跨 站 脚本 攻击 等 。 面 对 这 类 上 问题， 我们 也 可 以 求助 于 一 些 代 码 分 析 工 具 (参见 第 51 条 ) 。 最 后 ， 对 于 无 法 提供 Web 服 务 的 


问题 来 咬 ， 我 们 需要 审视 内 部 和 外 部 的 各 种 依赖 天 系 ， 看 看 它们 有 没有 在 正常 地 运作 。 


要 操 


+ 如 果 能 够 明确 指出 故障 的 原因 ， 那 么 应 该 从 下 往 上 查找 错误 ， 例如， 在 程序 崩 演 、 程 序 冻结 以 及 程序 发 出 错误 消息 等 情况 
下 ， 就 应 该 如 此 。 


-如果 故障 的 原因 很 难 锁定 ， 那 么 应 该 从 上 往 下 查找 错误 ， 例 如 ， 在 遇 到 性 能 问题 、 安 全 问题 以 及 可 靠 性 问题 的 时 候 ， 就 应 


该 如 此 。 


第 5 条 : 在 能 够 正音 运作 的 系统 与 友 生 故障 的 系统 乙 间 寻找 大 别 


我 们 通常 都 能 够 同时 访问 这 样 两 个 系统 ， 其 中 一 个 是 友 生 故障 的 系统 ， 另 一 个 是 与 之 相似 但 却 可 以 正常 运行 的 系统 。 当 我 们 
实现 了 某 项 新 功能 、 更 新 了 某 些 工具 或 基础 组 件 ， 或 是 把 系统 部 署 在 某 个 新 的 平台 上 面 时 ， 殊 可 能 会 遇 到 新 系统 无 法 正常 运行 的 
问题 ， 此 时 如 果 旧 系统 依然 正常 ， 那 么 我 们 通常 可 以 通过 寻找 (下面 整 会 讲 到 如 何 寻找 ) 或 尽量 缩小 (参见 第 45 条 ) 新 旧 两 个 
系统 之 间 的 到 别 来 锁定 问题 的 原因 。 


之 所 以 能 根据 新 旧 系 统 间 的 舌 距 来 进行 调试 ， 其 原因 在 于 : 尽管 各 人 所 经 历 的 问题 有 所 不 同 ， 但 计算 机 的 底层 运作 方式 却 是 
十 分 确定 的 ， 也 束 是 说 ， 同 样 的 输入 会 产生 同样 的 输出 。 因 此 ， 只 要 能 够 深入 故障 系统 中 ， 并 对 其 进行 足够 的 探查 ， 我 们 束 迟 早 
能 够 找到 相关 的 bug， 从 而 揭示 出 该 系统 为 什么 会 在 行为 上 与 正 常 系统 有 所 不 同 。 


其 实 有 很 多 时 候 ， 系 统 的 故障 原因 都 会 非常 明确 地 出 现在 你 面前 ， 只 要 你 肯 打 开 程 序 的 日 志文 件 (参见 第 56 条 ) ， 就 有 可 
能 发 现 里 面 有 一 条 消息 告诉 你 ，clients.conf 这 个 配置 文件 有 错误 : 


clients.conf: syntax error in line 92 


在 另外 一 些 情 况 下 ， 错 误 的 原因 可 能 会 隐藏 得 比较 深 ， 此 时 你 必须 提升 系统 日 志 的 详细 程度 (verbosity) , ARCA 


如 果 系 统 没 有 提供 足够 详细 的 日 志 机 制 ， 那 我 们 就 需要 用 追踪 工具 来 梳理 其 运行 时 的 行为 。 除 了 DTrace 和 SystemTap 等 通 
用 的 工具 ， 还 有 一 些 专门 的 工具 可 以 用 来 退 蹊 对 操作 系统 的 调用 (strace、truss、Procmon) 、 对 动态 链接 库 的 调用 (ltrace、 
Procmon) 、 网 络 包 (tcpdump, Wireshark) 以 及 SQL 数据 库 调用 (参见 第 ?58 条 ) 。 有 很 多 Unix 应 用 程序 (如 R Project) 是 
借助 复杂 的 shell 脚 本 来 局 动 的 ， 因 此 可 能 会 以 极其 隐 星 的 方式 出 错 。 针 对 这 样 的 错误 ， 在 大 多 数 情 况 下 ， 我 们 都 可 以 通过 给 相 
应 shell 传 入 -x 选项 的 办 法 来 进行 妃 踊 ， 这 样 得 到 的 数据 通常 很 庞大 ， 所 斑 现 在 的 系统 都 有 很 大 的 容量 能 够 存放 这 两 份 日 志 (以 
其 中 一 份 表示 那个 可 以 正音 运作 的 系统 ， 另 一 份 表示 出 现 了 故障 的 系统 ) ， 而 且 都 有 很 强 的 CPU 能 够 对 其 进行 处 理 与 比较 。 


束 系 统 的 操作 环境 而 言 ， 我 们 应 该 尽量 确保 这 两 个 系统 拥有 相似 的 环境 ， 因 为 这 样 能 够 更 加 方便 地 对 比 日 志文 件 或 追 踊 信 
息 ， 有 了 时 甚至 可 以 直接 找到 造成 bug 的 原因 。 我 们 可 以 先 从 一 些 较为 明显 的 部 分 入 手 ， 例如， 程序 的 输入 以 及 命令 行 参数 等 。 与 
早 前 所 襄 的 原则 一 样 ， 我 们 也 要 杀 目 进行 验证 ， 而 不 能 想当然 地 接受 假设 。 例 如 ， 应 该 在 两 个 系统 的 输入 文件 乙 间 进行 对 比 ， 如 
果 它 们 都 比较 庞大 并 且 离 得 比较 远 ， 那 可 以 考虑 对 比 它 们 的 MD5 校 验 和 。 


然后 ， 我 们 应 该 把 重点 放 在 代码 上 。 首 先 对 源 代码 进行 对 比 ， 我 们 可 能 要 挖 得 深 一 些 才 能 找到 bug 所 在 的 地 方 。 可 以 通过 
Idd 命 令 (适用 于 Unix 系 统 ) 或 是 带 有 /dependents 选 项 的 dumpbin 命 令 (适用 于 Visual Studio) 来 查看 与 每 个 可 执行 文件 有 


天 的 动态 程序 库 ， 并 通过 nm 命令 (适用 于 Unix 系 统 ) 、 带 有 /exports/imports 选 项 的 dumpbin 命 令 (适用 于 Visual Studio) 
或 javap 命 令 (适用 于 以 Java 语 言 开 友 出 来 的 程序 ) 来 查看 程序 所 定义 和 使 用 的 符号 。 如 果 你 确信 问题 肯定 出 现在 代码 中 ， 但 又 
看 不 出 明显 的 差别 ， 那 么 可 能 残 要 往 更 深 的 层次 去 探查 了 ， 也 融 是 需要 对 比 由 编译 器 所 生成 的 汇编 代码 (参见 第 37 条 ) 。 


然而 在 进行 更 深层 次 的 探查 之 前 ， 应 该 先 考虑 一 下 有 没有 其 他 因素 会 影响 程序 的 执行 情况 ， 环 境 变 量 束 是 这 样 一 个 容易 忽视 
的 因素 ， 即 便 是 没有 特权 的 用 尸 ， 也 依然 可 以 通过 设置 环境 变量 来 破坏 程序 的 正常 执行 。 另 一 个 因素 是 操作 系统 。 与 运行 着 正常 
程序 的 那个 操作 系统 相 比 ， 故 障 程序 所 在 的 这 个 操作 系统 ， 可 能 新 了 10 年 或 是 日 了 10 年 。 此 外 ， 也 要 考虑 编译 器 、 开 友 框 以 、 
第 三 方 链 接 库 、 浏 览 器 、 应 用 程序 服务 器 、 数 据 库 系统 以 及 其 他 一 些 中 间 件 。 至 于 怎样 在 这 么 多 的 因素 中 确定 问题 的 根源 ， 则 是 
我 们 接 下 来 要 讲 的 话题 。 


大 多 数 情况 下 ， 我 们 都 是 在 一 堆 干 章 里 面 找 一 根 针 (大海 扎 针 ) ， 因 此 应 该 尽量 使 这 推 干草 变 得 小 一 些 ， 于 是 ， 融 要 化 时 间 
来 构造 一 个 既 能 体现 bug， 又 最 为 简单 的 测试 用 例 (参见 第 10 条 ) 。 (另外 一 种 办 法 是 把 要 找 的 针 变 大 一 些 ， 也 融 是 命令 这 个 有 
bug 的 程序 输出 更 多 的 信息 ， 然 而 这 种 做 法 很 少 能 起 到 比较 好 的 效果 。) 简明 的 测试 用 例 可 以 缩短 日 志文 件 与 追 趴 信息 的 长 度 并 
减少 处 理 时 间 ， 从 而 令 调 试 工作 变 得 更 加 轻松 。 要 想 有 条 理 地 简化 测试 用 例 ， 我 们 可 以 在 确保 能 够 重 现 bug 的 前 提 下 ， 逐 渐 删 除 
用 例 中 的 元 素 或 系统 中 的 配置 选项 ， 直 到 删 至 最 简 。 


如 果 正 常 系统 和 故障 系统 的 区 别 位 于 源 代码 中 ， 那 么 有 一 种 很 实用 的 办 法 ， 就 是 对 这 两 个 版 本 之 间 的 历次 修改 进行 二 分 搜索 
(binary search) ， 以 确定 问题 所 在 。 例 如 ， 如 果 正 常 系统 的 版 本 号 是 100， 而 故障 系统 的 版 本 号 是 132， 那 我 们 首先 测试 116 
版 的 程序 是 否 正常 ， 如 果 116 版 正常 ， 那 就 判断 它 与 132 版 之 间 的 中 点 ， 也 就 是 124 版 是 否 正常 ， 如 果 116 版 有 错 ， 则 判断 它 与 
100 版 之 间 的 中 点 ， 也 就 是 108 版 是 否 正常 ， 并 依 此 类 推 。 每 次 修改 完 程序 之 后 ， 我 们 都 应 该 把 代码 单独 提交 到 版 本 控制 系统 里 
面 ， 这 样 做 的 好 处 之 一 ， 就 是 使 得 我 们 能 够 进行 二 分 搜索 。 某 些 版 本 控制 系统 提供 了 可 以 自动 执行 搜索 的 命令 ， 例 如 ，Git 就 提 
供 了 git bisect 命 令 (参见 第 26 条 ) 。 


还 有 一 个 很 有 效 的 办 法 ， 是 用 Unix 工 具 对 比 两 份 日 志文 件 (参见 第 56 条 ) ， 以 找 出 其 中 与 bug 有 关 的 区 别 。 我 们 在 这 种 情 
况 下 所 使 用 的 工具 ， 是 diff 命 令 ， 它 可 以 显示 出 两 份 文件 的 不 同 之 处 。 然 而 日 志文 件 经 常会 在 无 天 紧要 的 地 方 表 现 出 差别 ， 这 会 
把 那些 与 bug 和 真正 有 关 的 差别 给 掩盖 掉 ， 于 是 ,我 们 可 以 考虑 用 各 种 办 法 来 过 渡 干 扰 因 厅 。 例 如 ， 如 果 每 一 行 开头 的 几 个 字段 ， 
都 是 时 间 戳 与 进程 ID 等 信息 ， 那 我 们 融 可 以 用 cut 或 awk 命令 来 把 这 些 大 同 小 异 的 信息 裁 挥 。 下 面 这 条 命令 可 以 对 Unix 系 统 的 
messages 日 志文 件 进行 裁 切 ， 它 会 从 每 一 行 的 第 4 个 字段 开始 显示 其 内 容 : 


cut -d ' ' -f 4- /var/log/messages 
只 把 你 感 兴 趣 的 那些 事件 选 出 来 就 可 以 了 ， 例 如 ， 如 果 你 只 对 打开 的 文件 感 兴趣 ， 那 么 可 以 用 grep'open (这样 的 命令 来 


进行 第 选 。 你 也 可 以 用 grep-v gettimeofday 等 命令 来 把 对 上 自己 有 干扰 的 文本 行 过 滤 挥 (例如 ， 在 Java 程 序 里 面 ， 会 有 成 干 上 万 
次 与 获取 系统 时 间 有 天 的 调用 ) 。 此 外 ， 还 可 以 在 sed 命 令 中 指定 适当 的 正则 表达 式 ， 以 便 把 文本 行 中 目 己 不 感 兴趣 的 那 一 部 分 
裁 挥 。 


最 后 再 讲 一 个 局 级 的 实用 拉 巧 : 如 果 两 份 文 件 各 目的 排序 方式 无 法 使 diff 命 令 给 出 有 效 的 对 比 结果 ， 那 我 们 可 以 把 感 兴趣 的 
字段 提取 出 来 ， 对 其 进行 排序 ， 然 后 用 comm 工 具 在 排 好 顺序 的 两 个 集合 中 找寻 不 同 的 元 素 。 例 如 ， 如 果 我 们 想 对 比 t1 和 t2 这 两 
份 追踪 信息 ， 以 找 出 有 哪些 文件 只 出 现 于 t1 中 ， 那 么 可 以 在 Unix 的 Bash shell 中 输入 下 列 命令 ， 它 会 在 包含 字符 串 open (的 那 
些 文 本 行 里 面 提取 表示 文件 名 的 第 二 个 字段 ， 并 在 提取 出 来 的 这 两 个 集合 之 间 寻 找 差 别 : 


comm -23 <(awk '/open\(/{print $92 t1 | sort) \ 
<(awk ‘/open\(/{print $92 t2 | sort) 


两 对 小 括号 里 面 的 那 两 个 元 素 ， 会 分 别 生成 两 份 有 序列 表 ， 列 表 中 的 每 一 项 都 是 一 个 传 给 open 的 文件 名 ， 而 comm 命 令 


XMS BREDA ZS) 则 以 这 两 份 列表 为 输入 值 ， 并 把 只 出 现在 第 一 份 列表 中 的 内 容 列 出 来 。 
a 
. 在 能 够 正常 运作 的 系统 与 出 现 故 障 的 系统 之 间 对 比 ， 找 出 行为 上 的 区 别 ， 以 求 发 现 故障 的 原因 。 


影响 系统 行为 的 所 有 因素 都 要 考虑 到 ， 包 括 代 码 、 输 入 、 调 用 时 的 参数 、 环 境 变 量 、 服 务 以 及 动态 链接 库 。 


第 6 条 : 使 用 软件 目 身 的 凋 试 机 人 制 


程序 是 一 种 很 复杂 的 乐 西 ， 因 此 它们 通 单 都 包含 内 置 的 调试 机 制 。 (至 于 怎样 给 自己 正在 开 友 的 软件 里 面 添 加 这 样 的 机 制 |， 
请 参见 第 40 条 。) 这 种 机 制 有 很 多 好 处 ， 其 中 包括 : 


我 们 可 以 通过 禁用 后 台 执 行 或 多 线程 执行 等 特性 来 简化 程序 的 调试 工作 。 

: 我 们 可 以 有 选择 地 执行 其 中 某 一 部 分 功能 ， 以 便 通 过 测试 用 例 来 精确 地 再 现 相 关 的 故障 。 
: 程序 可 以 给 我 们 提供 与 性 能 有 关 的 报表 及 其 他 信息 。 

- 程序 可 以 把 更 多 的 信息 记录 在 日 志文 件 中 。 


因此 ， 我 们 应 该 花 一 些 时 间 ， 看 看 自己 要 调试 的 这 蒜 软 件 内 置 了 哪些 调试 机 制 。 想 要 了 解 这 些 机 制 ， 我 们 可 以 在 程序 文档 和 
源 代码 里 面 搜索 qdebug 这 个 词 ， 这 样 或 许 融 能 找到 与 开局 调试 模式 有 天 的 命令 行 选项 、 配 置 文件 中 的 条 目 、 构 建 选项 、 信 和 号 
(适用 于 Unix 系 统 ) 、 注 册 表 中 的 条 目 (适用 于 Windows 系 统 ) 或 可 以 在 命令 行 界面 中 执行 的 命令 。 


一 般 来 说 ， 开 局 了 调试 选项 之 后 ， 程 序 所 输出 的 信息 会 更 为 详细 ， 于 是 ， 它 的 操作 丈 会 变 得 更 加 明确 ， 有 了 时 甚至 还 会 变 得 更 
加 简单 。 (但 粮 栋 的 是 ， 开 局 了 这 些 选 项 之 后 ， 有 些 bug 也 会 随 之 消失 。) 由 于 程序 的 日 志文 件 所 记录 的 信息 要 比 没 有 开局 调试 
模式 的 时 候 更 多 ， 因 此 ， 我 们 可 以 通过 这 些 内 容 来 探究 故障 背后 的 原因 (参见 第 56 条 ) 。 下 面 举 几 个 例子 。 


有 些 程 序 很 容易 束 能 通过 一 个 命令 选项 来 局 用 其 调试 机 制 ， 局 用 了 之 后 ， 它 在 执行 操作 时 就 会 给 出 更 为 详细 的 信息 。 例 
如 ，Unix shel| 右 提供 了 -x 选项 ， 用 来 详细 展示 该 shell 所 执行 的 命令 。 在 调试 一 些 比 较 微 妙 的 文本 蔡 换 问题 时 ， 这 是 很 有 用 的 。 
下 面 这 段 代码 是 一 个 可 以 用 shell 来 执行 的 循环 : 


find-git-repos | 
while read repo ; do 

data=$(echo $repo | sed 's/repos/data/') 

# Skip if done 

test -r $data.out && continue 

# Obtain time series 

qtimeseries $(pwd)/$repo >$data.out 2>$data.err 
done 


把 上 述 代码 放 在 脚本 文件 里 ， 然 后 用 开启 了 命令 追踪 机 制 的 shell 来 执行 它 : 


sh -x script.sh 


执行 的 时 候 ，shell 会 产生 下 面 这 样 的 信息 ， 这 些 信息 详细 展示 了 命令 所 输出 的 内 容 以 及 蔡 换 之 后 的 变量 : 


read repo 

echo repos/mysql-server 

sed s/repos/data/ 
data=data/mysql-server 

test -r data/mysql-server.out 
continue 


+ +++ + + 


为 了 能 够 更 加 顺利 地 进行 调试 ， 我 们 在 启动 程序 的 时 候 ， 通 常 可 以 把 多 个 选项 结合 起 来 使 用 。 例 如 ， 我 们 要 排查 ssh 连 接 失 
败 的 原因 。 假 如 修改 全 局 的 sshd 配 置 文件 或 钥匙 ， 那 么 就 可 能 会 使 其 他 人 无 法 进行 连接 ， 因 此 ， 我 们 可 以 考虑 用 -f{ 选 项 来 启动 
sshd， 以 便 指定 一 份 定 制 好 的 配置 文件 ， 并 且 用 -p 选 项 来 指定 一 个 与 默认 端口 不 同 的 端口 〈 请 注意 ， 客 户 端 连接 服务 器 时 ， 也 
必须 使 用 这 个 端口 ) ， 此 外 ， 还 要 加 上 -d (调试 ) 选项 ， 使 得 进程 运行 在 前 台 ， 并 把 调试 消息 显示 在 终端 窗口 中 。 我 们 分 别 在 
服务 器 端 与 客户 端 采 用 下 面 这 两 条 命令 来 启动 服务 并 进行 连接 : 

# Command run on the server side 

sudo /usr/sbin/sshd -f ./sshd_config -d -p 1234 


# Command run on the client side 
ssh -p 1234 server.example.com 


这 些 命令 运行 起 来 之 后 ， 会 产生 图 1.1 这 样 的 调试 信息 ， 其 中 的 最 后 一 条 信息 揭示 了 连接 失败 的 原因 。 


调试 机 制 也 可 以 帮助 我 们 排查 性 能 方面 的 问题 。 例 如 ， 有 下 面 这 两 条 3QL 碍 询 语句 : 


select count(*) from commits where au_id = 1; 
select count(*) from commits where 
created_at = ‘2012-08-01 16:25:36'; 


一 条 语句 不 到 10 富 秒 就 可 以 完成 ， 但 是 第 二 条 语句 却 用 了 3 分 钟 还 没有 执行 完 。 我 们 现在 用 SQL 的 explain 机 制 来 解释 第 二 
条 语句 耗 时 过 长 的 原因 (对 于 本 例 来 说 ， 这 个 原因 当然 是 显而易见 的 ) : 
explain select count(*) from commits where au_id = 1; 


explain select count(*) from commits where 
created_at = ‘2012-08-01 16:25:36'; 


从 图 1.2 中 的 输出 信息 可 以 看 到 : 由 于 第 一 条 得 询 语句 使 用 了 索引 ， 因 此 只 需要 扫描 21 个 数据 行 融 可 以 找 出 匹配 的 结果 ， 而 
第 二 条 查询 语句 没有 使 用 系 引 ， 因 此 必须 把 表格 里 面 的 两 亿 两 干 二 和 多 万 个 数据 行 全 都 扫 摘 一 志 ， 才 能 从 中 得 出 4 个 匹配 的 结 
来 。 


debugl: sshd version OpenSSH_6.6.1p1_hpni3v11 FreeBSD-20140420, 
OpenSSL 1.0.1p-freebsd 9 Jul 2015 

debugl: read PEM private key done: type RSA 

free 

Server listening on :: port 1234. 

debugl: Server will not fork when running in debugging mode. 
debugl: rexec start in 5 out 5 newsock 5 pipe -1 sock 8 

debugl: inetd sockets after dupping: 3, 3 


Connection from 10.212.168.34 port 57864 
debugl: Client protocol version 2.0; client software version 
OpenSSH_6.7p1 Debian-5 


[...] 

debugl: trying public key file /home/dds/.ssh/authorized_keys 
debugl: fd 4 clearing O_NONBLOCK 

Authentication refused: bad ownership or modes for directory 
/home/dds/.ssh 


图 1.1 ”由 开启 了 调试 模式 的 ssh 守 护 进 程 所 输出 的 调试 信息 


+----+------------- +--------- +------ +--------------- +------- + 
| id | select_type | table | type | possible_keys | key | 
二 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 +--------- +------ +--------------- +------- 十 
| 1 | SIMPLE | commits | ref | au_id | au_id | 
十 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 
+--------- +------- +------ 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 

| key_len | ref | rows | Extra | 
+--------- +------- +------ +-------------------------- + 

| 5 | const | 21 | Using where; Using index | 
+--------- +------- +------ +-------------------------- 二 

二 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 +--------- +------ +--------------- +------ = 
| id | select_type | table | type | possible_keys | key | 
十 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 + 
| 1 | SIMPLE | commits | ALL | NULL | NULL | 
十 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 + 
十 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 + 

| key_len | ref | rows | Extra 

+--------- + 一 一 一 一 一 一 二 -一 一 一 一 一 一 一 一 一 一 二 ~ 一 一 一 一 一 一 一 一 一 一 一 一 + 

| NULL | NULL | 222526953 | Using where | 

+--------- + 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


图 1.2 ”由 SQL 的 explain 机 制 所 输出 的 信息 ， 上 半 部 分 对 应 于 使 用 了 索引 的 查询 语句 ， 下 半 部 分 对 应 于 未 使 用 索引 的 查询 语句 


还 有 一 种 调试 机 制 ， 使 得 我 们 可 以 精确 地 定位 到 某 一 种 情况 。 例 如 ， 某 人 台 主 机 正在 忙碌 地 投递 上 干 条 电子 邮件 消息 ， 其 中 有 


一 条 消息 无 法 投递 。 我 们 要 想 知道 无 法 投递 的 原因 ， 可 以 调用 Postfix 的 sendmail 命 令 ， 同 时 以 -v 选 项 来 开启 详细 输出 模式 ， 并 
以 -M 选 项 来 指定 那 条 消息 的 标识 竺 。 


sudo sendmail -v -M 1ZkIDm-0006BH-0X 
执行 上 述 命令 之 后 ， 可 以 看 到 类 似 下 方 所 示 的 输出 信息 。 与 刚才 那个 例子 类 似 ， 在 本 例 中 ， 问 题 的 原因 也 写 在 最 后 一 行 。 


delivering 1ZkIDm-0006BH-0X 
LOG: MAIN 
Unfrozen by forced delivery 
R: smarthost for root@example.com 
T: remote_smtp_smarthost for root@example.com 
Connecting to blade-al-vm-smtp.servers.example.com 
[10.251.255.107]:25 ... connected 
SMTP<< 220 blade-al-vm-smtp.servers.example.com ESMTP 
SMTP>> EHLO parrot.example.com 
SMTP<< 250-blade-al-vm-smtp.servers.example.com Ok. 
250-AUTH LOGIN 
250-STARTTLS 
250-XEXDATA 
250-XSECURITY=NONE , STARTTLS 
250 DSN 
SMTP>> STARTTLS 
SMTP<< 220 Ok 
SMTP>> EHLO parrot.example.com 
SMTP<< 250-blade-al-vm-smtp.servers.example.com Ok. 
250-AUTH LOGIN 
250-XEXDATA 
250-XSECURITY=NONE , STARTTLS 
250 DSN 
SMTP>> MAIL FROM:<> SIZE=2568 
SMTP>> RCPT TO:<root@example.com> 
SMTP>> DATA 
SMTP<< 535 Authentication required. 


BR 


+ 找 出 你 正在 调试 的 这 款 软 件 所 支持 的 调试 机 制 ， 并 以 此 来 排查 你 所 遇 到 的 问题 。 


BIR: 试看 用 多 种 工具 构建 软件 ， 并 将 其 放 在 不 同 的 环境 下 执行 


有 了 时 我 们 可 以 通过 改变 环境 来 锁定 一 些 难以 捕获 的 bug。 例 如 ， 我 们 可 以 用 另外 一 蒜 编译 器 来 构建 这 个 软件 ， 也 可 以 切换 到 
其 他 的 运行 时 解释 器 、 虚 拟 机 、 中 间 件 、 操 作 系 统 或 CPU 架构 上 。 由 于 那些 环境 可 能 会 更 加 严格 地 检查 输入 数据 ， 或 能 通过 其 
结构 来 凸现 程序 中 的 错误 (参见 第 17 条 ) ， 因 此 可 以 帮助 我 们 友 现 原来 很 难 找 到 的 一 些 bug。 如 果 程 序 不 够 稳定 、 忆 是 友 生 无 法 
重 现 的 衣 演 问题 ， 或 移植 起 来 不 太 顺 利 ， 那 束 应 该 试 著 把 它 放 在 另外 一 种 环境 下 进行 测试 ， 这 使 得 我 们 能 够 使 用 更 为 先进 的 调试 
TH, 例如， 一 款 图 形 界面 很 漂亮 的 调试 器 或 dtrace 等 (参见 第 58 条 ) 。 


在 其 他 操作 系统 里 面 编译 或 运行 软件 ， 可 以 把 我 们 对 API 的 用 法 所 做 的 错误 假设 暴露 出 来 。 例 如 ， 由 于 某 些 C 及 C++ 头 文 件 
声明 了 很 多 不 一 定 会 用 到 的 实体 ， 因 此 我 们 总 是 认为 只 要 把 这 些 头 文件 包含 进来 残 够 了 ， 这 可 能 导致 我 们 筷 记 将 另外 一 个 必需 的 
头 文 件 包 含 进来 ， 从 而 使 客户 遇 到 移植 方面 的 问题 。 此 外 ， 肝 些 API 的 实现 方式 在 各 种 操作 系统 乙 间 会 有 很 大 的 区 别 ， 例 
如 ，Solaris、FreeBSD 及 GNU/Linux 系 统 会 采用 不 同 的 万 式 来 实现 C 程 序 库 ， 而 抹 面 版 与 移动 版 的 Windows API， 目 前 也 是 基 
于 不 同 的 代码 库 来 实现 的 。 请 注意 ， 那 些 在 底层 及 用 C 程 序 库 和 API 的 解释 型 语言 也 会 受到 影响 ， 如 JavaScript、Lua、Perl、 
Python 或 Ruby 等 。 


对 于 C 和 和 C++ 这样 较为 接近 硬件 的 语言 来 说 ， 底 层 的 处 理 器 架构 会 对 程序 的 行为 造成 影响 。 过 去 几 十 年 间 ，|Intel x86 架 构 与 
ARM 架 构 分 别 成 为 桌面 市 场 与 移动 市 场 的 主流 ， 于 是 ， 那 些 在 字 书 序 上 面 (SPARC、PowerPC) 或 是 在 对 空 指 针 的 解 引 用 上 面 
(VAX) 偏离 主流 的 架构 ， 殊 变 得 不 那么 流行 了 。 然 而 ，x86 架 构 与 ARM 架 构 在 处 理 未 对 齐 的 内 存 访问 及 内 存 布 局 时 依然 有 所 区 
别 。 例 如 ， 如 果 在 奇数 内 存 地 址 处 访问 两 字 市 的 值 ， 那 么 丈 有 可 能 令 某 些 ARM 染 构 的 CPU 出 错 ， 或 令 CPU 表 现 出 非 原 子 的 
(non-atomic) 行为 。 在 其 他 染 构 上 面 进 行 未 对 齐 的 内 存 访问 ， 可 能 会 严重 影响 程序 的 性 能 。 此 外 ， 结 构 体 的 大 小 ， 以 及 其 中 
各 成 员 距 离 结 构 体 开始 处 的 偏 移 量 ， 在 这 两 种 架构 中 也 是 有 区 别 的 ， 对 于 老 版 本 的 编译 器 来 说 ， 这 种 区 别 尤其 突出 。 还 有 一 个 更 
为 重要 的 问题 在 于 : 当 你 把 代码 从 32 位 架构 移植 到 64 位 架构 ， 或 是 从 一 个 操作 系统 移植 到 另 一 个 操作 系统 的 时 候 ， 长 整数 
(long) 及 指针 值 等 原始 类 型 所 占据 的 大 小 可 能 也 会 有 所 改变 。 下 面 这 个 程序 可 以 显示 出 五 种 原始 类 型 所 占据 的 字 忆 数 。 


#include <stdio.h> 
int 
main() 


{ 
printfC"S=%zu I=%zu L=%zu LL=%zu P=%zu\n", sizeof (short) , 


sizeof(int), sizeof(long), 
sizeof(long long), sizeof(char *)); 


在 较为 典型 的 几 种 环境 之 下 ， 上 述 程序 所 给 出 的 结果 分 别 


il 


Windows, Microsoft C/C++ 80x86 S=2 
Windows, Microsoft C/C++ x64 S=2 
GNU/Linux, GCC, x86_64 S=2 
S=2 
S=2 


rrererer 
ora wo A 


GNU/Linux, GCC, armvé6l 
OS X, LLVM, x86 64 


i eT E 
Aa 上 全 全 人情 请 


由 此 可 见 ， 把 软件 放 在 其 他 架构 或 操作 系统 中 运行 ， 可 以 帮助 我 们 对 其 进行 调试 ， 并 检测 出 移植 方面 的 问题 。 


对 于 移动 平台 来 襄 ， 各 种 设备 之 间 的 差距 要 比 桌 面 平 台 更 大 ， 它 们 不 仅 在 操作 系统 的 版 本 方面 有 所 不 同 (大 多 数 手机 与 平板 
厂商 都 会 对 原始 的 Android 系 统 进 行 修改 ， 并 把 改版 后 的 系统 安装 在 设备 上 ) ， 而 且 在 硬件 方面 也 有 着 相当 大 的 区 别 ， 如 屏幕 分 
状 率 、 操 作 界 面 、 内 存 及 处 理 器 等 。 这 使 得 我 们 在 开 友 移动 软件 时 ， 更 有 必要 将 其 放 在 各 种 不 同 的 设备 上 进行 调试 ， 为 此 ， 很 多 
移动 app 的 开 友 团队 都 有 许多 种 移动 设备 。 


在 其 他 执行 环境 中 调试 代码 ， 主 要 有 三 种 方式 : 


1. 在 工作 站 安 委 虚拟 机 软件 ， 并 且 用 虚拟 机 来 运行 各 种 不 同 的 操作 系统 。 这 种 办 法 还 有 一 个 好 处 ， 融 是 可 以 保留 各 种 执行 环 
境 的 原始 镜像 ， 我 们 对 虚拟 机 进行 配置 时 ， 是 在 这 个 原始 镜像 的 基础 之 上 进行 修改 的 ， 如 果 有 必要 ， 我 们 可 以 把 虚拟 机 恢复 到 原 


始 状态 。 


2. 使 用 小 型 的 廉价 计算 机 。 如 果 你 主要 面 对 的 是 x86 架 构 ， 但 同时 又 想 安 斌 ARM CPU， 那 么 最 简单 的 办 法 焉 是 使 用 
Raspberry Pi (Sek) 。 这 是 一 种 基于 ARM 的 微型 设备 ， 能 够 运行 很 多 种 流行 的 操作 系统 。 它 可 以 连接 网 线 ， 或 通过 Wi-Fi 上 
网 。 我 们 可 以 在 这 种 设备 上 尝试 GNU/Linux 的 开发 环境 ， 这 对 于 主要 在 Windows 或 OS X 系 统 上 调试 代码 的 人 来 说 是 很 有 帮助 
的 。 此 外 ， 如 果 你 平常 使 用 的 是 Windows 系 统 ， 那 么 可 以 买 一 台 Mac mini， 这 样 就 能 够 轻松 地 切换 到 OS X 开 友 环 境 了 。 


3. 租 用 基于 云端 的 主机 ， 并 在 上 面 运行 你 想 使 用 的 操作 系统 。 


要 想 用 各 种 不 同 的 编译 器 与 运行 时 环境 来 调试 代码 ， 我 们 固然 可 以 安装 新 的 操作 系统 或 使 用 新 的 设备 ， 但 除 此 之 外 还 有 一 种 
办 法 ， 那 残 是 设法 使 目 己 这 人 台 工 作 计算 机 上 面 的 开 上 友 环 境 变 得 更 加 丰 晶 。 这 样 ， 我 们 融 可 以 看 到 由 其 他 开 友 工具 所 给 出 的 错误 与 
警告 信息 ， 并 且 可 以 用 那些 工具 对 代码 中 的 某 些 方面 进行 更 为 严格 的 检查 ， 看 看 它们 有 没有 遵从 相关 的 规 学。 与 使 用 静态 分 析 工 
Aa (参见 第 51 条 ) 所 市 来 的 好 处 类 似 ， 同 时 使 用 多 种 编译 器 ， 可 以 使 我 们 友 现 更 多 的 问题 ， 这 其 中 既 包括 移植 方面 的 问题 ， 也 
包括 逻辑 方面 的 问题 。 例 如 ， 如 果菜 一 和 编译 器 对 代码 检查 得 比较 锅 松 ， 而 另外 一 各 编译 器 检查 得 比较 严格 ， 那 么 融 可 以 揭示 出 
移植 方面 的 问题 ; 如 果菜 一 款 编 译 器 不 对 某 个 逻辑 问题 友 出 警告 ， 而 另外 一 寺 编 译 器 对 此 友 出 了 警告 ， 那 么 融 可 以 揭示 出 逻辑 方 
面 的 问题 。 只 要 是 符合 语法 的 代码 ， 编 译 器 基本 上 都 可 以 把 它 编译 成 可 执行 的 文件 ， 但 是 它们 有 了 时 不 太 能 够 检查 出 对 编程 语言 的 
误 用 ， 例 如， 即便 代码 所 引入 的 头 文件 里 面 声明 了 一 些 没 有 公开 发 布 的 元 素 ， 有 些 编译 器 也 依然 会 直接 编译 通过 ， 而 不 会 指出 相 
天 的 问题 ， 为 此 ， 我 们 应 该 多 用 几 种 编译 器 进行 编译 ， 以 便 把 这 万 面 的 问题 暴露 出 来 。 为 了 使 开 友 环境 变 得 更 加 丰富 ， 我 们 在 调 
试 软件 的 过 程 中 ， 不 仅 要 使 用 主流 的 工具 ， 而 且 还 要 同时 安 委 并 使 用 一 些 著 代 产品 。 下 面 给 出 几 条 建议 : 


- 开发 .NET Framewotk 程 序 的 时 候 ， 不 仅 要 使 用 Mictosoft 的 工具 与 环境 ， 而 且 还 要 同时 使 用 Mono。 
. 用 Ada、C、C++、Objective C 或 其 他 相关 的 语言 来 编写 程序 时 ， 要 同时 使 用 LLVM 与 GCC 这 两 种 编译 器 。 


- 开发 Java 程 序 时 ， 要 同时 使 用 OpenJDK (2 Oracle 4] 基于 相同 的 代码 库 所 提供 的 JDK) 及 GNU Classpath 这 两 种 开发 
包 。 此 外 也 要 注意 把 程序 放 在 一 种 以 上 的 Java 运 行 时 环境 里 面 执 行 。 


- 开发 Ruby 程 序 时 ， 不 仅 要 使 用 作为 参考 实现 的 CRuby 来 进行 开发 ， 而 且 还 要 尝试 其 他 VM， 如 JRuby、Rubinius 及 mtuby。 


还 有 一 种 更 为 大 胆 的 做 ;去 ， 那 束 是 把 程序 里 面 的 一 部 分 代码 改 用 另外 一 种 语言 来 重新 实现 。 如 果 你 要 调试 的 是 个 比较 麻烦 的 
算法 ， 那 么 这 种 做 法 就 很 有 和 用处。 最 为 典型 的 情况 是 : 你 起 初 用 了 一 种 较为 低级 的 语言 来 实现 这 个 算法 ， 然 后 友 现 这 种 实现 万 式 
无 法 运作 ， 于 是 ， 你 考虑 采用 Python、R、Ruby、Haskel| 或 Unix shell 等 更 为 高 级 的 语言 来 重新 实现 它 。 在 实现 过 程 中 ， 你 应 
该 使 用 这 些 语言 所 提供 的 高 级 特性 ， 例 如 ， 可 以 对 集合 、 管 道 与 过 滤器 进行 操作 ， 并 使 用 高 阶 函 数 (higher-order function) 
等 ， 这 样 能 够 帮 你 实现 出 一 个 可 以 正常 运作 的 算法 。 当 你 迅速 查 明 算法 的 设计 间 题 并 将 实现 中 的 错误 加 以 修复 之 后 ， 如 果 党 得 这 
种 新 的 实现 方式 在 性 能 上 无 法 满足 要 求 ， 那 么 可 以 回 过 头 去 ， 用 原来 的 语言 或 某 种 较为 接近 CPU 的 语言 ， 把 算法 再 重新 实现 一 
裔 ， 并 及 用 各 种 对 比 式 的 技术 进行 调试 (参见 第 5 条 ) ， 使 其 能 够 正 弟 运 作 。 


BR 
` 用 多 种 编译 工具 来 构建 软件 ， 并 将 其 放 在 各 种 平台 中 执行 ， 可 以 给 调试 工作 提供 很 多 有 价值 的 思路 。 


. 如 果 遇 到 了 一 个 很 难 调 试 的 算法 ， 那 么 可 以 考虑 改 用 高 级 语言 将 其 重新 实现 一 遍 。 


第 8 条 : 把 工作 焦点 放任 最 为 重要 的 问题 上 


许多 大 型 软件 系统 都 含有 数量 极其 众多 的 bug (有 一 些 是 已 知 的 bug， 还 有 一 些 则 尚未 友 现 ) . BST, ww 
须 把 应 该 受到 关注 的 bug 与 可 以 忽略 的 bug 明 智 地 区 分 开 。 这 样 做 不 是 为 了 单纯 地 缩减 事务 清单 中 的 未 决 事务 ， 而 是 为 了 帮助 我 
们 开 友 出 稳定 、 易 用 、 可 维护 而 且 效 率 较 高 的 软件 ， 毕 葛 这 才 是 公司 给 我 们 支付 新 水 的 原因 。 为 此 ， 我 们 要 通过 事务 追踪 系统 来 
设 定 各 项 事务 的 优先 级 (参见 第 1 条 ) ， 从 而 使 目 己 能 够 把 工作 重心 汇聚 在 优先 级 较 高 的 那些 事务 上 ， 并 把 优先 级 较 低 的 事务 忽 
略 挥 。 下 面 给 出 一 些 与 排 定 事 务 优先 级 有 天 的 建议 。 


下 列 几 类 问题 应 该 赋予 较 高 的 优先 级 。 


. 数据 丢失 : 数据 之 所 以 会 丢失 ， 可 能 是 因为 本 身受 到 了 损坏 ， 也 可 能 因为 程序 在 可 用 性 方面 遇 到 了 问题 。 用 户 把 他 们 的 数 
据 托付 给 你 的 软件 ， 你 就 应 该 维系 这 份 信任 感 。 如 果 数 据 丢 失 ， 那 你 就 违背 了 他 们 的 信任 ， 要 想 再 重新 获得 其 信任 ， 是 很 困难 
的 。 


` 数据 安全 : 这 种 问题 可 能 会 影响 软件 数据 的 保密 性 与 完整 性 ， 也 可 能 会 影响 软件 所 在 系统 的 完整 性 ， 或 软件 所 提供 服务 的 
可 用 性 。 此 类 问题 通常 是 由 于 恶意 人 士 对 软件 进行 攻击 而 引发 的 ， 它 会 给 公司 带 来 巨大 的 资金 和 名 誉 损失 ， 此 外 ， 还 会 引 来 监管 
机 构 的 注意 ， 或 招致 勒索 。 因 此 ， 安 全 问题 必须 尽快 解决 。 


- 服务 的 可 用 性 降低 : 如 果 软 件 是 用 来 提供 某 种 服务 的 ， 那 么 当 这 项 服务 无 法 使 用 时 ， 公 司 就 会 遭受 资金 损失 (有 时 其 至 是 
以 百 万 元 为 单位 的 损失 ) ， 此 外 ， 还 会 令 公 司 失 去 信誉 、 连 使 经 理 在 半夜 愤怒 地 打 电 话 给 你 ， 而 且 也 会 使 服务 人 员 忙 得 不 可 开 


交 。 这 些 都 是 应 该 尽量 避免 的 事情 。 


: 使 用 安全 : 此 类 问题 可 能 导致 用 户 伤亡 ， 使 财产 丢失 或 受 损 ， 或 令 环 境 遭 到 破坏 。 前 面 那 几 类 问题 所 造成 的 后 果 ， 同 样 有 
可 能 出 现在 这 一 类 问题 上 面 。 如 果 软 件 可 能 会 在 这 一 方面 发 生 故 障 ， 那 就 应 该 用 一 种 比 这 份 清单 更 加 严谨 的 流程 来 指导 你 的 行 
动 。 


. 程序 朋 溃 或 冻结 : 这 可 能 导致 数据 丢失 或 服务 下 线 ， 而 且 此 类 问题 可 能 与 底层 的 安全 问题 有 关 。 在 程序 崩溃 或 失去 响应 之 
后 ， 我 们 通常 可 以 通过 事后 分 析 技 术 (参见 第 35 条 ) 来 对 其 进行 调试 。 这 种 问题 自然 不 应 该 赋予 较 低 的 优先 级 。 


代码 质量 (code hygiene) : 我 们 要 把 编译 器 所 给 出 的 警告 信息 和 断言 失败 信息 ， 以 及 未 处 理 的 异常 与 内 存 泄漏 等 问题 清 
理 干净 。 总 之 ， 由 于 各 种 低 质 量 的 代码 会 滋生 并 掩藏 一 些 严重 的 bug， 因 此 ， 我 们 不 能 允许 这 类 问题 继续 存在 并 积累 下 去 (参见 
第 20 条 ) 。 


下 面 几 类 问题 的 优先 级 可 以 设置 得 低 一 些 。 这 并 不 是 说 它们 本 身 不 重要 或 不 值得 关注 ， 而 是 说 为 了 解决 更 为 紧 担 的 问题 ,我 
们 可 以 把 这 些 问题 先 放 在 一 边 。 


. 对 遗留 事物 的 支持 : 能 够 支持 过 时 的 硬件 、API 或 文件 格式 ， 这 固然 是 好 的 ， 然 而 从 商业 角度 来 看 ， 这 样 做 不 会 有 太 大 意 
义 ， 因 为 使 用 这 些 东 西 的 人 已 经 越 来 越 少 了 。 


(RA: 这 一 类 问题 的 优先 级 没有 较为 明确 的 结论 。 如 果 你 在 软件 的 发 展 过 程 中 ， 总 是 把 原来 的 用 户 抛 开 不 管 ， 那 就 会 
失去 顾客 对 你 的 信赖 。 有 些 公司 ， 如 Nikon， 通 过 对 向 后 兼容 性 的 维护 而 获得 了 良好 的 口碑 ， 他们 的 新 产品 能 够 与 很 多 代 之 前 的 
旧 产 品 相 兼容 ， 例 如， 当前 的 高 端 Nikon 相 机 ， 依 然 那 可 以 使 用 20 世 纪 70 年 代 的 Nikkor (尼克 尔 ) 镜头 。 与 之 相对 ， 某 些 成 功 的 
软件 公司 以 其 决绝 的 做 法 而 知名 ， 他 们 毫 不 犹豫 地 放弃 对 旧 软 件 与 旧 服 务 的 支持 。 有 时 我 们 确实 应 该 停止 对 旧 特 性 的 支持 ， 以 便 
把 精力 更 好 地 放 在 未 来 的 发 展 上 面 。 


: 美观 问题 : 这 些 问 题 很 难处 理 得 十 分 恰当 ， 而且 经 常 容易 遭 人 忽视 。 例 如， 就 算 弹出 式 帮 助 信息 没有 完整 地 显示 出 来 ， 客 
户 也 不 太 可 能 因为 这 个 而 抛弃 你 的 产品 ， 可 是 当 你 要 修复 这 个 小 问题 的 时 候 ， 却 会 发 现 它 处 理 起 来 相当 麻烦 ， 因 为 你 得 根据 屏幕 
的 分 辩 率 设置 来 动态 地 调整 帮助 面板 的 尺寸 。 


: 已 经 有 了 | 临时 解决 方案 的 问题 : 有 些 bug 调 试 起 来 比较 复杂 ， 为 了 避免 在 这 些 问题 上 面 消耗 时 间 ， 我 们 可 以 先 给 用 户 提供 
一 种 临时 的 解决 方案 ， 以 便 暂 时 绕 过 这 些 问题 。 例 如 ， 笔 者 在 打开 自己 家 的 电视 之 后 ， 想 试 着 用 电视 的 区 控 器 去 操作 媒体 播放 
机 ， 然 而 却 看 到 了 一 条 提示 信息 : “请 再 试 一 次 ”。 我 怀疑 这 个 小 问题 修复 起 来 相当 麻烦 ， 于 是 厂商 就 先 给 出 了 这 个 权宜 的 办 
法 。 


很 少 有 人 会 用 到 的 特性 : 当 软 件 中 的 某 一 个 较为 奇怪 ， 而 且 很 少 有 人 用 到 的 特性 出 了 问题 时 ， 我 们 与 其 花 时 间 去 解决 这 个 
问题 ， 还 不 如 直接 把 该 特性 删 掉 〈 并 把 由 此 引发 的 一 些小 状况 处 理 好 ) 。 通 过 收集 软件 的 使 用 数据 ， 我 们 可 以 更 为 容易 地 确定 出 
这 些 军用 的 特性 ， 并 据 此 做 出 决策 。 


请 注意 ， 如 果 你 决定 忽略 某 个 优先 级 比较 低 的 问题 ， 那 束 应 该 把 这 个 人 态度 明确 地 表达 出 来 。 你 可 以 在 事务 追 叶 系统 里 面 表明 
自己 “不 打算 解决 ”该 问题 ， 并 将 其 关闭 。 这 样 做 可 以 把 自己 的 决策 记录 下 来 ， 使 得 其 他 人 以 后 不 会 再 提出 类 似 的 问题 ， 从 而 减 
轻 管 理 方 面 的 工作 量 。 


am 
“ 并 不 是 所 有 的 问题 都 值得 解决 。 


` 修复 优先 级 较 低 的 问题 可 能 会 耽误 你 的 时 间 ， 使 你 无 法 拿 出 更 多 时 间 去 处 理 那 些 更 为 紧 连 的 事务 。 


Bom ”通用 的 万 法 与 做 法 


调试 故障 所 用 的 办 法 ， 通 单 要 根据 其 背后 的 扩 术 与 开 友 平 台 而 定 ， 不 过 ， 有 一 些 办 法 是 可 以 适用 于 各 种 情况 的 。 


第 9 条 : 相信 有 目 己 能 够 把 问题 调试 好 


软件 通 单 是 极其 复杂 的 。 机 械 表 的 移动 机 制 ， 仪 由 100 多 个 部 件 组 成 ;而 整个 房屋 中 的 各 种 器 械 ， 其 部 件 忠 数 也 只 是 简单 组 
件 的 几 倍 而 已 。 这 与 典型 的 软件 系统 有 很 大 区 别 ， 后 者 很 容易 融 包 含 成 十 上 万 行 复杂 的 代码 。 我 们 可 以 在 这 两 个 领域 中 各 举 一 个 
较为 精密 的 例子 来 做 比较 : A380 客 机 有 400 万 个 物理 组 件 ， 而 Linux 内 核 的 代码 行 数 则 是 900 万 。 因 此 ， 我 们 必须 在 思想 上 做 好 
充分 的 准备 ， 才 能 应 对 如 此 复杂 的 软件 。 


特 先 ， 你 要 确信 和 目 己 一 定 能 够 找到 问题 并 将 其 修复 。 你 的 心理 状态 会 对 调试 的 结果 造成 影响 ， 专 家 们 把 这 叫做 “感受 到 的 挑 
战 与 目 身 拉 能 之 间 的 一 场 对 抗 ”。 如 果 你 根本 束 不 相信 目 己 能 够 克服 这 个 问题 ， 那 你 的 思维 束 会 徘徊 不 前 ， 甚 至 想 要 干脆 放弃 。 
在 这 种 情况 下 ， 你 解决 不 了 实质 的 问题 ， 而 是 会 盲目 地 打 补丁 ， 以 掩盖 由 该 问题 所 引发 的 各 种 症状 ， 这 样 做 对 代码 是 有 害 的 。 我 
们 必须 记 住 这 一 点 。 


如 果 问 题 是 可 以 重 现 的， 那么 毫 无 疑问 ， 你 肯定 能 解决 它 (而 且 通 常 可 以 按照 本 书 所 给 出 的 建议 来 解决 ) 。 如 果 问 题 不 能 
现 ， 那 么 有 一 些 办 法 可 以 令 其 变 得 能 够 重 现 。 在 调试 的 时 候 ， 有 两 个 重要 的 “朋友 ”可 以 帮助 我 们 : 一 个 是 对 数据 的 访问 权 ,， 它 
使 我 们 能 够 访问 到 上 自己 所 需 的 全 部 数据 ;， 另 一 个 是 功能 强大 的 计算 机 ， 它 使 我 们 能 够 对 这 些 数 据 进 行 处 理 。 我 们 可 以 检查 程序 友 


生 间 题 时 所 表现 出 来 的 状况 ， 以 及 程序 的 日 志和 程序 的 源 代码 ， 有 时 甚至 可 以 检查 机 器 指令 ， 此 外 ， 我 们 也 可 以 在 软件 栈 的 任意 
位 置 添加 详细 的 日 志 语 句 (或 者 说 至 少 添加 一 些 监 测 探 针 ) 。 然 后 ， 残 可 以 用 工具 或 较 短 的 脚本 来 筛选 这 些 数据 ， 并 从 中 找到 问 
题 的 根源 。 这 是 一 种 综合 能 力 ， 具 备 这 种 能 力 的 人 可 以 在 较 大 的 范围 内 及 任意 的 深度 上 面 进 行 搜索 ， 从 而 完成 调试 工作 ， 这 个 过 
旦 会 给 人 一 种 独特 的 满足 感 。 


为 了 能 够 高 效 地 进行 调试 ， 你 还 必须 留 出 充足 的 时 间 。 调 试 是 一 项 对 人 要 求 很 高 的 工作 ， 它 比 编程 更 为 复杂 ， 因 为 我 们 不 仅 
要 明日 程序 的 逻辑 ， 而 且 还 要 理解 其 背后 的 效果 (这 通常 措 的 是 较为 底层 的 效果 ) 。 此 外 ， 我 们 还 必须 把 环境 、 断 点 、 日 志 记 
录 、 各 种 窗口 以 及 测试 用 例 设置 好 ， 以 便 能 够 高 效 地 重 现 问 题 。 不 要 在 还 没有 解决 bug 的 时 候 束 停 手 ， 否 则 前 面 所 花 的 时 间 束 全 
都 日 费 了 ， 即 便 要 停 手 ， 也 应 该 在 准确 理解 了 接 下 来 所 应 采取 的 措施 之 后 再 停止。 


要 想 调 试 复杂 的 问题 ， 融 必须 在 没有 干扰 的 状态 下 工作 。 人 脑 需要 经 过 一 段 时 间 之 后 才能 进入 心 流 (flow) 状态 ， 在 这 种 
状态 下 ， 我 们 会 完全 沉浸 于 自己 正在 做 的 事情 中 。 心 流 这 个 概念 由 Mihaly Csikszentmihalyi 提 出 ， 根 据 他 的 说 法 ， 人 在 处 于 心 
流 状 态 时 ， 能 够 把 自身 情绪 与 目 己 所 做 的 事情 相互 奖 合 起 来 ， 并 通过 一 种 成 残 感 来 提升 自己 做 事 的 角力 与 效果 。 我 们 在 调试 复杂 
的 系统 时 会 遇 到 巨大 的 困难 ， 而 心 流 状 态 所 市 来 的 好 处 对 于 解决 这 些 困 难 会 起 到 天 键 的 作用 。 弹 出 的 消息 、 打 来 的 电话 、 反 复 的 
聊天 、 持 续 更 新 的 社区 网 络 ， 或 是 跑 过 来 求助 的 同事 ， 都 会 对 目 己 造成 干扰 ， 从 而 破坏 这 种 心 沈 状 态 。 一 旦 离开 这 种 状态 ， 残 享 
受 不 到 它 所 市 来 的 好 处 了 ， 因 此 ， 我 们 要 尽量 避免 干扰 ， 应 该 把 用 不 到 的 应 用 程序 天 挨 ， 把 电话 调 到 静音 模式 ， 可 以 在 显示 器 上 
贴 一 个 请 勿 打扰 的 标志 (如 果 你 有 一 间 目 己 的 办 公 室 ， 那 也 可 以 把 牌子 挂 到 门 上 ) 。 


还 有 个 很 有 用 的 办 法 ， 融 是 在 遇 到 难题 的 时 候 去 睡 一 竞 。 研 究 者 上 友 现 ， 人 在 有 睡 吕 的 时 候 ， 其 神经 元 之 间 会 形成 广泛 的 连接 ， 
这 些 连 接 会 把 看 似 不 相关 的 路 径 贯 通 起 来 。 这 对 于 调试 工作 可 以 起 到 很 大 的 帮助 作用 ， 它 通常 可 以 使 我 们 找到 一 种 打破 思维 定式 
的 调试 策略 ， 从 而 跳出 当前 的 困 局 。 在 看 似 不 相关 的 路 径 之 间 所 形成 的 这 种 新 连接 ， 是 在 睡眠 的 过 程 中 搭建 起 来 的 ， 然 而 要 想 使 
这 种 机 制 有 利于 调试 工作 ， 我 们 还 必须 合理 地 运用 它 。 也 就 是 说 ， 我 们 必须 先 努 力 地 解决 问题 ， 使 得 必要 的 数据 都 存留 在 脑子 
里 ,然后 才能 在 睡眠 中 找到 创新 的 解法 。 刚 一 遇 到 困难 束 立 刻 喝 一 杯 啤酒 ， 然 后 跑 去 睡觉 ， 是 没有 太 大 作用 的 。 此 外 还 要 注意 保 
持 宛 足 的 睡眠 ， 以 便 企 第 二 天 醒 来 忆 后 ， 脑 子 里 与 最 识 有 关 的 那 一 部 分 能 够 听取 与 潜意识 有 关 的 那 一 部 分 所 给 出 的 建议 ， 从 而 令 
工作 更 有 效率 。 


没有 谁 会 认为 调试 是 一 件 简单 的 事情 ， 所 以 要 想 遍 效 地 调试 ， 融 必须 有 角力 。 由 于 计算 机 在 最 底层 具有 确定 性 ， 因 此 我 们 最 
终 可 以 通过 深入 挖 据 把 错误 的 原因 隔离 出 来 。 在 较 高 一 些 的 层面 上 ， 为 了 提升 表达 能 力 与 效能 ， 它 会 引入 一 些 不 确定 的 因素 ,使 
得 程序 的 某 些 行为 看 起 来 较为 随机 (可 以 思考 一 下 多 线程 的 应 用 程序 是 如 何 运 作 的 ) 。 面 对 这 些 与 不 确定 因素 有 关 的 错误 时 ,我 
们 要 把 握 住 一 点 : 计算 机 毕 葛 是 一 种 运行 速度 很 快 的 可 编程 机 器 ， 它 可 以 运行 数量 极 多 的 用 例 ， 因 此 ， 我 们 最 后 还 是 能 够 把 错误 
原因 找 出 来 。 由 此 可 见 ， 调 试 工作 之 所 以 会 陷入 僵局 ， 基 本 上 都 是 因为 缺乏 毅力 ， 例 如 ， 我 们 可 能 没有 去 写 某 个 测试 用 例 ， 没 有 
去 查看 某 个 日 志文 件 ， 或 是 没有 去 尝试 从 另外 一 个 角度 来 研究 问题 。 


最 后 要 注意 的 是 : 想 成 为 一 名 高 效 的 调试 工程 师 ， 束 必须 持续 地 投入 精力 ， 去 学 习 环 境 、 工 具 及 相关 的 知识 。 只 有 这 样 ， 你 
才能 够 在 复 隶 度 持续 提升 的 技术 工作 中 保持 优势 。 现 人 在 看 来 ， 笔 者 当年 在 调试 时 最 单 犯 的 错误 ， 融 是 没有 化 足 够 的 功夫 来 把 调试 
工作 所 需 的 基础 设施 搭建 好 。 要 想 把 基础 设施 搭建 好 ， 可 能 需要 把 下 面 四 项 全 都 做 到 : 


把 健壮 的 最 小 测试 用 例 准 备 好 〔 参 见 第 10 条 ) 。 
. 对 bug 的 重 现 加 以 自动 化 。 

. 用 脚本 来 分 析 日 志文 件 。 

-了解 API 或 语言 特性 的 实际 运作 方式 。 


当 我 振作 起 来 把 精力 投入 到 应 该 做 的 事情 上 面 之 后 ， 我 的 调试 效率 丈 会 急剧 提升 。 一 旦 进入 这 种 状态 ， 通 剃 可 以 在 几 分 钟 之 


AS Abugh RA. 


要 点 
` 确信 问题 是 可 以 追查 并 解决 的 。 
` 给 调试 工作 留 出 足够 的 时 间 。 
安排 好 工作 环境 ,使 自己 不 受 干 扰 。 
` 遇 到 难题 的 时 候 可 以 先 去 睡 一 觉 。 
不 要 彻底 放弃 。 


. 投入 精力 去 学 习 环 境 、 工具 及 知识 。 


第 10 条 : 局 效 地 重 现 程序 中 的 问题 


要 想 高 效 地 调试 程序 问题 ， 一 个 关键 的 因素 束 是 要 能 够 可 靠 且 方 便 地 重 现 它 。 这 么 说 有 三 个 理由 。 首 先 ， 如 果 我 们 总 是 能 做 
到 只 按 一 个 按钮 束 可 以 重 现 问题 ， 那 么 自然 能 够 专心 地 去 寻找 问题 的 原因 ， 而 不 用 再 瀛 费时 间 去 人 研究 怎样 才能 把 这 个 问题 重 现 一 
裔 。 第 二 ， 如 果 我 们 可 以 万 便 地 重 现 问 题 ， 那 么 也 就 能 够 同样 方便 地 把 问题 描述 出 来 ， 以 寻求 外 人 的 帮助 (参见 第 2 条 ) 。 第 
三 ， 修 复 错误 之 后 ， 我 们 可 以 把 重 现 问题 所 需 的 步骤 执行 一 记 ， 如 果 程 序 这 次 没有 出 现 故 障 ， 那 惑 证 明 我 们 对 其 所 做 的 修复 是 正 
确 的 。 


EE 


创建 短小 的 范例 或 测试 用 例 (test case) ， 以 便 重 现 问题 ， 这 对 于 提升 调试 的 效率 来 说 是 很 有 帮助 的 。 我 们 要 遵守 最 小 学 
例 (minimal example) 准则 ， 这 是 一 条 黄金 标准 ， 它 要 求 我 们 写 出 可 以 重 现 问 题 的 最 短 泡 例 。 还 有 一 条 名 为 SSCCE 的 准则 
(参见 第 1 条 ) ， 可 以 称 为 铂金 标准 ， 它 要 求 我 们 不 仪 要 写 出 短小 的 (short) 范例 ， 而 且 还 要 把 它 写成 自足 (self-contained) 
且 正 确 无 误 (correct， 也 就 是 可 以 编译 、 可 以 运行 ) Abh (example). ASHER, IMA CMA 
究 那 些 可 以 忽略 的 代码 分 文 了 ， 而 且 我 们 所 要 创建 及 查看 的 日 志文 件 与 追踪 信息 ， 也 不 会 变 得 过 于 见长 。 此 外 ， 这 种 短小 的 范 
例 ， 执 行 起 来 也 要 比 那 些 较 长 的 范例 更 为 迅速 ， 这 其 中 一 个 重要 原因 在 于 调试 模式 所 需 的 开销 相当 大 。 


为 了 缩短 汽 例 的 长 度 ， 可 以 考虑 上 自 上 而 下 与 自 下 而 上 这 两 种 办 法 (参见 第 4 条 ) ， 我 们 需要 根据 具体 情况 来 决定 应 该 采用 哪 
种 办 法 。 如 果 代 码 中 的 依赖 天 系 比较 多 ， 那 么 目下 而 上 的 方法 或 许 会 好 一 些 ， 因 为 这 样 可 以 使 我 们 在 刚 开 始 调试 的 时 候 ， 无 需 面 
对 过 多 的 依赖 天 系 。 如 果 不 理解 导致 问题 友 生 的 真正 原因 ， 那 融 应 该 创建 目 上 而 下 的 测试 用 例 ， 以 帮助 我 们 缩小 可 能 包含 错误 的 
代码 泄 围 。 


目下 而 上 地 进行 调试 时 ， 要 先 对 间 题 的 原因 给 出 一 个 假设 ,例如 ， 我 们 认为 是 由 调用 某 个 API 所 引 友 的 ， 然 后 ， 构 建 测试 用 
例 来 演示 这 个 问题 。 有 一 次 笔者 遇 到 一 个 用 来 处 理 输 入 文件 的 程序 ， 这 个 程序 的 代码 比较 复杂 ， 一 共有 27000 行 ， 而 且 运 行 得 相 
当 缓 慢 。 在 查看 了 程序 所 调用 的 系统 操作 之 后 ， 我 猜想 问题 可 能 与 调用 tellg 六 数 有 关 ， 人 在 读 取 文 件 的 时 候 ， 这 个 函数 可 以 返回 
当前 位 置 在 文件 流 中 的 偏 移 量 。 笔 者 在 运行 了 下 面 这 个 简短 的 代码 片段 之 后 ， 确 认 目 己 的 假设 是 正确 的 (参见 第 58 条 ) , mA 
这 个 代码 片段 还 有 利于 我 对 该 问题 的 权宜 解决 方案 (也 束 是 使 用 包装 类 ) 进行 测试 。 


ifstream in(fname.c_str(Q), 10S::binary); 
do { 

(void)in.tellgQ; 
} while ((val = in.getQ)) != EOF); 


目 上 而 下 地 进行 调试 时 ， 我 们 要 从 能 够 演示 问题 的 场景 中 逐步 移 除 各 种 元 素 ， 直 到 不 能 继续 移 除 。 对 于 这 种 类 型 的 调试 工作 
来 说 ， 二 分 搜索 拉 术 通常 是 很 有 帮助 的 。 例 如 ， 我 们 要 调试 一 个 无 法 在 浏览 器 里 正常 运作 的 HTML 文 件 。 首 先 ， 可 以 删 去 文件 的 
head 元 素 。 如 果 问 题 依 然 存 在 ， 那 束 删 挥 body 元 素 。 删 除 之 后 ， 如 果 问 题 消失 了 ， 那 么 束 恢 复 body 元 素 ， 并 将 其 中 的 一 半 内 
容 删 把 。 肥 复 执行 此 过 程 ， 直 到 我 们 确定 了 引 友 错误 的 元 素 。 在 这 个 过 程 中 ， 我 们 要 一 直 打开 编辑 器 ， 并 且 要 人 在 进入 了 错误 的 路 
径 忆 后， 通过 撤销 功能 返回 到 正确 的 路 径 之 上 ， 这 样 做 会 极 大 地 提升 调试 效率 。 


有 了 短小 的 泡 例 之 后 ， 我 们 很 容易 融 能 创建 出 一 个 目 足 的 沁 例 。 这 种 自足 的 学 例 ， 不 应 该 依赖 于 外 部 的 程序 库 、 头 文件 、 
CSS 文 件 及 Web 服 务 等 组 件 ， 以 便 使 我 们 可 以 把 它 拿 到 其 他 地 方 运行 ， 并 将 问题 重 现 出 来 。 如 果 测 试用 例 确实 需要 使 用 某 些 外 部 
元 素 ， 那 么 可 以 把 那些 元 素 与 该 用 例 捆绑 起 来 。 请 注意 ， 我 们 要 使 用 可 移植 的 形式 来 引用 这 些 元 素 ， 而 不 要 使 用 绝对 的 文件 路 径 
或 固化 的 iP 地址 。 例 如 ， 要 使 用 http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/16340/OEBPS/Text/../resources/file.css 形 式 来 引用 css 文 件 ， 而 不 能 
使 用 /home/susan/resources/file.css 的 形式 ， 要 使 用 http://localhost:8081/myService 来 表示 Web 服 务 ， 而 不 能 使 
用 http://193.92.66.100:8081/myService。 我 们 可 以 把 这 种 自足 的 范例 拿 到 客户 所 在 的 地 方 进行 便捷 的 测试 ， 也 可 以 把 它 放 在 
另外 一 个 平台 中 测试 (例如 ， 从 Linux 平 台 转 移 到 Windows 平 台 ) ， 还 可 以 将 其 友 布 在 问答 论坛 上 面 (参见 第 2 条 ) ， 或 是 将 其 
发 给 厂商 ， 以 寻求 进一步 的 帮助 。 


此 外 ， 我 们 还 需要 在 可 以 制作 副本 的 执行 环境 下 进行 调试 。 如 果 不 把 正在 调试 的 代码 与 运行 该 代码 的 系统 固定 起 来 ， 那 么 你 
可 能 会 在 一 个 根本 融 没 有 bug 的 地 方 去 日 费 工 夫 。 例 如 ， 我 们 要 调试 一 和 软件 的 安 委 程序 。 每 次 安 丢 该 软件 时 ， 操 作 系统 的 配置 
都 会 遭 到 修改 ， 这 是 我 们 要 企 调试 过 程 中 竭力 避免 的 事情 。 人 在 这 种 情况 下 ， 可 以 考虑 创建 虚拟 机 和 镜像， 该 镜像 中 是 一 个 干净 的 系 
统 ， 可 以 供 我 们 安 妆 这 款 软件 。 每 次 安 委 失败 之 后 ， 我 们 只 需要 从 头 开始 使 用 那个 干净 的 镜像 残 可 以 了 。 此 外 ， 也 可 以 通过 操作 
系统 级 别 的 虚拟 化 工具 或 容器 工具 (如 Docker) 来 达到 类 似 的 效果 。 如 果 能 够 半 备 一 秋 系 统 配置 管理 工具 ， 那 融 更 好 了 ， 如 可 
以 考虑 Ansible、CFEngine、Chef、Puppet 或 Salt 等 。 这 些 工 具 可 以 根据 我 们 所 发 出 的 高 级 指令 来 可 靠 地 创建 特定 的 系统 配 
置 ， 从 而 简化 生产 、 测 试 以 及 开 上 友 环 境 的 兼容 性 维护 工作 ， 并 且 使 我 们 能 够 像 管 控 软件 那样 来 管控 它们 的 演化 情况 。 


除了 上 述 几 点 ， 我 们 还 应 该 能 够 对 友 生 故 障 的 软件 版 本 进行 可 靠 的 重 制 。 为 此 ， 首 先 应 该 把 软件 置 于 Git 这 样 的 配置 管理 工 
具 之 下 。 然 后 ， 在 构建 的 过 程 中 ， 选 取 一 个 与 构建 所 用 的 源 代码 版 本 有 关 的 标识 符 ， 并 把 它 放 在 软件 的 代码 里 面 。 下 面 这 条 
shell 命 令 能 够 打印 一 条 变量 初始 化 语句 ， 这 条 语句 会 采用 与 最 近 一 次 的 Git 提 交 相 对 应 的 纺 略 哈 希 码 来 初始 化 version 变 量 ， 你 可 
以 把 它 添加 到 源 代码 中 。 


git log -n 1 --format='const string version = "%h";' 
例如 ， 上 面 那 条 命令 可 能 会 输出 : 
const string version = "035cd45"; 


现在 ， 我 们 可 以 给 软件 添加 一 种 显示 该 字符 串 的 万 式 ， 例 如 ， 可 以 通过 命令 行 选项 或 About (AF) 对 话 框 来 展示 version 
变量 的 值 。 有 了 这 个 字符 串 ， 我 们 残 可 以 用 下 面 这 样 的 命令 来 获取 与 友 生 故障 的 软件 版 本 相对 应 的 源 代码 : 


git checkout 035cd45 


如 果 你 在 用 旧 代 码 构 建 软件 时 想 要 精确 地 重 现 当 时 的 境况 ， 那 么 别 筷 了 把 影响 最 终 友 行 成 果 的 所 有 元 素 全 都 纳入 版 本 控制 系 
统 之 下 ， 如 编译 器 、 系 统 程序 库 、 第 三 方程 序 库 以 及 构建 软件 时 所 用 的 规 沁 文 件 (如 Makefile 或 1DE 的 项 目 配置 文件 ) 。 最 后 ， 
如 果 你 需要 把 工具 及 运行 时 环境 所 珊 来 的 各 种 变化 因素 全 都 去 掉 ， 那 么 可 以 参考 本 书 第 52 条 的 建议 。 

要 所 

-如果 能 够 准确 重 现 程序 中 的 问题 ， 那 么 我 们 的 调试 过 程 就 会 得 以 简化 。 

+ 创建 一 个 简短 且 自 足 的 范例 ， 以 便 重 现 程序 中 的 问题 。 

` 设法 创建 一 套 可 以 制作 副本 的 执行 环境 。 


:采用 版 本 控制 系统 给 特定 的 软件 版 本 打上 标记 ， 以 便 根据 此 标记 来 获取 与 之 对 应 的 代码 。 


第 11 条 : 修改 完 代 码 忆 后 ， 要 能 够 尽快 看 到 结 


调试 通 党 是 一 种 循序 新 进 的 过 程 。 在 每 一 轮 中 ， 我 们 都 要 花 时 间 去 构建 并 运行 软件 ， 而 且 要 看 着 它 发 生 故 障 ， 这 些 环节 会 占 
用 很 多 时 间 ， 而 且 这 些 时 间 并 没有 用 来 解决 软件 中 的 问题 。 因 此 ， 我 们 要 提前 进行 准备 ， 设 法 缩短 每 一 轮 调 试 所 化 费 的 时 间 。 


首先 从 软件 的 构建 入 手 。 我 们 应 该 能 通过 一 条 命令 (如 make 或 mvn compile) 或 一 个 按键 (如 F5) 把 发 生 故 障 的 软件 迅速 
构建 出 来 。 构 建 过 程 应 该 能 够 记录 文件 之 间 的 依赖 关系 ， 使 得 我 们 在 修改 了 某 处 代码 之 后 只 有 少数 几 个 文件 需要 重新 编译 。 能 够 
达到 这 种 效果 的 构建 工具 包括 make、Ant 及 Maven。 


高 效 地 部 署 与 运行 软件 也 是 相当 重要 的 ， 然 而 各 个 项 目的 具体 实现 方式 有 很 大 的 区 别 。 我 们 可 能 要 在 远程 主机 上 面部 署 文 
件 、 要 重启 应 用 程序 服务 器 、 要 清除 缓存 ， 或 要 重新 初始 化 某 个 数据 库 ， 为 此 ， 可 以 使 用 项 目的 构建 系统 ， 或 编写 一 些 脚本 来 目 
动 执 行 该 流程 (参见 第 12 条 ) 。 如 果 安 半 软 件 之 前 需要 化 很 长 时 间 来 对 分 配 文件 进行 构建 ， 而 且 软 件 安 委 得 也 比较 慢 ， 那 么 可 
以 考虑 设置 一 种 快捷 的 安装 途径 ， 使 得 我 们 只 需 把 改动 之 后 的 那些 文件 复制 到 适当 的 位 置 即 可 。 


最 后 ， 要 确保 软件 能 够 尽快 暴露 出 故障 (参见 第 55 条 ) 。 如 果 友 生 故 障 的 代码 可 以 进行 单元 测试 ， 或 是 可 以 放 在 回归 测试 
框架 中 进行 测试 ， 那 束 构 建 一 个 能 够 展示 故障 的 测试 用 例 (参见 第 10 条 ) ， 然 后 通过 采用 1DE 或 测试 环境 所 提供 的 特性 来 运行 这 
个 测试 用 例 。 例 如 ， 如 果 代码 是 用 Maven 来 管理 的 ， 那 么 可 以 通过 下 面 这 条 命令 来 运行 名 为 TestFetch 的 用 例 : 


mvn -Dtest=TestFetch test 


如 果 要 调试 的 程序 在 处 理 某 个 特定 的 文件 时 会 友 生 故 障 ， 那 就 构建 一 个 能 够 引 友 该 故障 的 最 简 文 件 。 为 了 重 现 GUI 应 用 程序 
中 的 问题 ， 我 们 可 以 通过 软件 自动 化 应 用 程序 来 完成 ， 例 如 ， 适 用 于 网 页 浏览 器 的 Seleni um、 适 用 于 Windows 系 统 的 
AutoHotkey、 适 用 于 OS X 系 统 的 Automator， 以 及 适用 于 Linux 系 统 的 AutoKey。 


BR 
“ 设法 在 修改 代码 之 后 尽快 看 到 其 结果 ， 以 提升 调试 的 效率 。 


“ 配置 一 套 快速 的 自动 化 构建 及 部 署 流程 。 


` 测试 软件 时 ， 要 令 其 尽快 地 将 故障 暴露 出 来 。 


第 12 条 : 将 复杂 的 测试 场景 目 动 化 


我 们 可 以 用 脚本 对 复杂 的 测试 场景 进行 自动 化 。 自 动 化 的 方式 有 很 多 种 。 如 果 是 要 对 处 理 流 程 与 文件 进行 编排 ， 那 么 可 以 考 
Unix shell 所 提供 的 大 量 实用 工具 (参见 第 22 条 ) 。 此 外 ， 通 过 能 够 获取 URL 的 curl 命 令 ， 以 及 能 够 解析 JSON 数 据 的 jq 命 令 ， 
我 们 还 可 以 用 shell 来 测试 Web 服 务 。 对 于 牵涉 API 访 问 及 状态 维护 等 事宜 的 复杂 场景 来 说 ， 我 们 可 以 求助 于 功能 更 为 丰富 的 脚本 
语言 ， 如 Python、Ruby 或 Per|， 另 外 ， 还 有 很 多 系统 会 内 置 它们 自己 的 脚本 语言 ， 如 Apache HTTP Server, Wireshark (一 款 
网 络 包 分 析 器 ) 以 及 VLC (一 款 媒体 播放 器 ) 都 支持 Lua 编 程 语言 。 


如 果 软 件 本 身 不 支持 脚本 语言 ， 但 你 能 够 对 它 进行 修改 ， 那 么 可 以 考虑 将 该 软件 与 脚本 语言 结合 起 来 ， 通 过 相关 的 AP| 来 把 
软件 程序 中 的 函数 披露 给 脚本 语言 。 现 在 看 一 个 简单 的 例子 (这 是 笔者 特意 构造 出 来 的 ) 。 假 设 我 们 用 CC 语言 实现 了 一 个 数学 函 
数 库 ， 并 且 需 要 对 其 进行 测试 ， 那 么 可 以 采用 程序 清单 2.1 这 样 的 C 语 言 代 码 来 加 载 并 运行 名 为 debug.Iua 的 Lua 程 序 。 这 段 C 语 
言 代码 会 把 sin、cos 及 tan 函 数 导出 给 Lua 程 序 ， 以 供 其 进行 测试 。 


程序 清单 2.1 ”把 C 语 言 函 数 导出 给 Lua， 以 供 其 进行 测试 


#include <math.h> 
#include <lua.h> 
#include <lauxlib.h> 
#include <lualib.h> 


// Functions exposed to Lua 

static int l_sin(lua_State *L) { 
double value_as_number = luaL_checknumber(L, 1); 
// Call the function, and return the result 
lua_pushnumber(L, sin(value_as_number) ) ; 
return 1; // Single result 

} 


static int |_cos(lua_State *L) { 
double value_as_number = luaL_checknumber(L, 1); 
lua_pushnumber(L, cos(value_as_number) ); 
return 1; 


} 


static int l_tan(lua_State *L) { 
double value_as_number = l|uaL_checknumber(L, 1); 
lua_pushnumber(L, tan(value_as_number) ) ; 
return 1; 


int main) { 
// Setup Lua 
lua_State *L = luaL_newstate(); 
luaL_openlibs(L); 


// Expose the functions to Lua 
lua_pushcfunction(L, l_sin); 
lua_setglobal(L, “Isin"); 
lua_pushcfunction(L, 1_cos); 
lua_setglobal(L, "“Icos"); 
lua_pushcfunction(L, 1_tan); 
lua_setglobal(L, “Itan"); 


// Load and run the debug file 
luaL_dofile(L, "debug. lua"); 
puts('Done") ; 

return 0; 


在 Debian Linux 系 统 中 ， 可 以 通过 sudo apt-get install lua5.2-dev 命 令 来 安装 Lua， 并 通过 cc myprog.c-llua5.2-Im 来 编 
译 上 述 C 语 言 程序 。 (其 他 操作 系统 上 面 的 安装 方法 ， 请 参阅 Lua 的 文档 。) 然后 ， 笔 者 编写 下 面 这 个 简短 的 Lua 程 序 ， 并 通过 
正 纺 轴 数 的 定义 来 验证 数学 阔 数 库 中 的 六 数 所 达到 的 精确 程度 。 


tan? = 


epsilon = 1 
errors = 0 
while epsilon > 0 and errors < 2 do 
for theta = 0, 2 * math.pi, 0.1 do 
diff = lsin(theta) / lcos(theta) - Itan(theta) 
if (math.abs(diff) > epsilon) then 
print(epsilon, theta, diff) 
errors = errors + 1 
end 
end 
epsilon = epsilon / 10 
end 


运行 C 语 言 程序 之 后 ， 该 程序 会 加 载 Lua 代 码 ， 并 产生 下 面 这 样 的 输出 : 


le-14 4.7 = 1.4210854715202e-14 
le-15 1.5 1.7763568394003e-15 
le-15 4.7 1.4210854715202e-14 


在 现实 工作 中 ， 本 例 所 举 的 C 语 言 程序 相当 于 你 正在 开 上 友 的 大 型 应 用 程序 ， 而 受 测 的 三 角 函 数 ， 则 相当 于 应 用 程序 里 面 有 待 
检查 的 那些 函数 ， 你 可 以 通过 Lua 程 序 为 其 打造 相应 的 测试 用 例 。 


Br 
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第 13 条 : 使 自己 尽 可 能 多 地 观察 到 与 调试 有 天 的 数据 


我 们 在 调试 的 过 程 中 要 处 理 大 量 数 据 ， 并 且 要 把 各 式 各 样 的 数据 关联 起 来 ， 如 源 代码 、 日 志文 件 中 的 条 目 、 变 量 的 值 、 栈 的 
内 容 、 程 序 的 I/O 以 及 测试 的 结果 等 。 这 些 数据 通常 是 由 多 个 处 理 流程 与 计算 主机 所 产生 的 ， 如 果 能 够 把 它们 全 都 适当 地 展示 在 
调试 者 眼前 ， 那 么 将 会 给 调试 工作 市 来 很 多 的 好 处 。 首 先 ， 可 以 使 我 们 友 现 数据 之 间 的 相互 天 系 。 例 如 ， 我 们 可 以 看 到 : 当 测 试 
失败 的 时 候 ， 日 志文 件 中 会 多 出 来 一 条 记录 。 其 次 ， 它 可 以 令 人 尽量 保持 专注 ， 避 人 免 因 为 来 回 切 换 而 使 思路 受到 干扰 。 有 时 我 们 
必须 进入 完全 专注 的 状态 (参见 第 9 条 ) ， 才 能 找到 | 数据 之 间 的 关键 联 系 ， 可 是 如 果 在 进行 单 步 调试 的 过 程 中 忆 是 要 通过 输入 命 
令 或 切换 窗口 来 查看 某 些 变量 的 值 ， 那 么 我 们 就 无 法 保持 这 种 专注 的 状态 了 。 此 外 ， 留 出 足够 的 空间 来 显示 较 长 的 代码 行 ， 也 能 
够 帮助 我 们 发 现 一 些 可 能 会 错过 的 模式 。 你 或 许 会 按照 很 多 代码 风格 指 十 所 提倡 的 那样 ， 把 编辑 器 的 窗口 冤 度 设 为 70 至 80 列 ， 
但 是 如 果 日 志文 件 和 栈 跟 踊 信 息 中 的 某 些 行 比较 长 ， 那 么 为 了 符合 这 个 80 列 宽 的 限制 ， 它 们 会 分 成 很 多 行 来 显示 ， 而 这 样 是 不 
利于 进行 阅读 与 分 析 的。 因此 ， 我 们 可 以 使 编辑 器 在 水 平方 向 上 尽量 占 满 整个 显示 器 ， 这 样 其 中 的 某 些 模式 丈 会 目 然 地 浮现 出 
来 ， 如 图 2.1 所 示 。 下 面 给 出 几 条 建议 ,希望 能 够 帮助 大 家 在 调试 时 看 到 更 多 的 数据 。 


第 一 条 建议 是 : 尽量 扩大 显示 区 域 。 很 多 人 都 使 用 两 台 或 两 合 以 上 的 高 分 辨 率 显 示 器 来 做 开 友 。 (用 廉价 的 大 屏幕 电视 机 是 
不 行 的， 因为 它们 显示 出 来 的 字符 很 模糊 。) 要 想 同 时 使 用 多 人 台 显 示 器 ， 残 必须 配备 功能 强大 的 显卡 接口 。 如 果 你 用 的 是 笔记 
本 ， 那 么 可 以 外 接 一 台 显 示 器 ， 把 笔记 本 的 屏幕 延伸 到 那 台 显示 器 上 (而 不 是 使 两 者 显示 完全 相同 的 画面 ) ， 这 样 做 可 以 增加 你 
所 能 够 看 到 的 内 容 。 无 论 是 使 用 台式 机 还 是 笔记 本 ， 都 应 该 把 编辑 器 或 终 站 机 的 窗口 切换 到 全 屏 模式 ， 这 种 显示 效果 在 当前 的 全 
高 清 (full HD) 显示 器 上 面 或 许 显得 有 点 笨拙 ， 然 而 对 于 某 些 调试 任务 来 说 却 是 必 不 可 少 的 ， 因 为 它 使 得 我 们 能 够 在 横向 和 纵 
同上 尽 可 能 多 地 看 到 相关 的 数据 。 如 果 切 换 到 全 屏 模式 之 后 还 是 无 法 把 数据 显示 到 整个 屏幕 中 ， 那 么 可 以 考虑 把 字体 调 小 (并 戴 
上 眼镜 ) ， 或 是 使 用 投影 仪 。 
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. 尽 可 能 地 将 显示 


1] 1 英寸 二 0.0254 米 。 


“ 把 相对 静态 


图 2.1 


日 志文 件 在 宽度 


的 数据 打印 到 纸 上 。 


编辑 注 


区 域 扩 至 最 大 。 


度 不 同 的 编辑 器 中 的 显示 效果 。 顶 部 是 默认 的 宽度 ， 抬 部 是 拉 伸 之 后 的 宽度 


个 相当 有 效 的 办 法 。 激 光 打 印 机 在 600dpi 的 分 辨 率 下 
这 样 打出 来 的 数据 要 比 显 示 器 更 多 ， 而 且 看 起 来 也 更 为 清爽 。 
每 的 数据 ， 可 以 打 到 纸 上 ， 以 便 给 显示 器 留 下 更 多 的 空 
印 程序 代码 的 最 佳 纸张 ， 

沿 痢 纵 同 一 直 打 印 下 去 。 如 果 你 现在 还 有 一 人 台 


肯定 是 15 英 寸 1 的 绿 线条 折 备 纸 (green bar fanfold paper) 


同时 看 到 比较 多 的 数据 ， 那 我 们 就 可 以 更 加 专注 地 进行 


数据 结构 的 定义 以 及 代码 清 


间 ， 用 来 展示 那些 在 调试 过 程 中 频繁 变动 的 数据 。 


(REVS TEC. 


BLATLAIE6600x 5100RRWAB EME Saat 
等 变化 不 太 频 
笔者 最 后 要 说 的 是 ， 打 
这 种 纸 横 向 可 以 打 132 列 ， 并 且 能 够 
能 够 处 理 这 种 纸张 的 打印 机 ， 那 就 用 它 来 打印 代码 吧 。 


调试 ， 从 而 找到 数据 所 体现 出 的 模式 以 及 数据 之 间 的 相互 


第 14 条 : 考虑 对 软件 进行 更 新 


接 下 来 ， 笔 者 要 说 几 个 很 多 人 都 意 想 不 到 的 bug 来 源 。 并 非 所 有 错误 都 是 由 于 你 目 己 所 写 的 代码 而 造成 的 ， 用 来 处 理 这 些 代 
码 的 编译 器 或 解释 器 、 你 所 使 用 的 程序 库 、 你 所 依赖 的 数据 库 和 应 用 程序 服务 器 ， 以 及 上 述 工具 所 在 的 操作 系统 ， 也 有 可 能 要 对 
程序 中 的 bug 负 有 责任 。 笔 者 编写 本 书 时 ，Linux 的 源 代码 里 面包 含 2700 多 条 市 有 XXX 了 字样 的 注释 ， 设 标记 通 弟 意味 着 可 疑 的 内 


容 ， 这 其 中 有 一 些 肯 定 是 bug.。 


于 是 ， 有 些 bug 丈 可 以 通过 更 新 软件 来 解决 。 如 果 你 要 友 布 的 打包 应 用 程序 里 面 出 现 了 隐 星 的 bug， 那 么 使 用 新 版 的 编译 器 
或 程序 库 或 许 能 够 帮助 你 修复 这 个 bug。 如 果 你 要 友 布 基于 软件 的 服务 ， 那 么 对 中 间 件 、 数 据 库 及 操作 系统 进行 更 新 也 是 很 有 好 
处 的 。 人 至少 应 该 尝试 用 最 新 的 版 本 来 构建 、 链 接 或 运行 程序 代码 ， 以 尽量 消除 因 第 三 方 组 件 而 引入 bug 的 概率 。 然 而 ， 有 时 及 用 
稍微 保守 一 些 的 升级 策略 也 是 很 有 道理 的 ， 这 就 是 说 ， 尽 省 我 们 知道 旧版 软件 不 太 完 美 ,， 但 是 基于 某 些 原因 ， 我 们 还 是 决定 继续 
使 用 这 些 软 件 。 有 很 多 中 间 件 本 身 编写 得 束 有 错误 ， 或 是 向 后 兼容 性 不 太 好 ， 因 此 ， 有 经 验 的 用 户 通 常会 较为 谨慎 地 进行 升级 ， 
他 们 会 升级 到 能 够 解决 其 问题 ， 而 且 友 布 时 间 第 二 早 的 那个 bug 修 复 版 本 上 面 (如 6.4.3 版 ) 。 此 外 ， 新 版 软件 也 会 引入 新 的 bug 
与 兼容 性 问题 ， 因 此 在 升级 的 时 候 人 至少 要 给 目 己 留 一 条 退路 ， 也 丈 是 要 拟定 一 套 明 智 的 后 退 计 划 ， 如 果 升 级 失败 ， 或 是 升级 到 的 
版 本 无 法 解决 你 所 面 对 的 bug， 那 么 可 以 根据 该 方案 退回 原 有 的 版 本 。 我 们 可 以 在 沙 盒 中 更 新 第 三 方 的 代码 ， 例 如 ， 可 以 对 虚拟 
机 进行 复制 ， 在 复制 出 来 的 镜像 里 面 进 行 更 新 ， 如 果 更 新 后 的 效果 不 好 ， 那 么 直接 把 这 份 镜像 丢 挥 束 行 了 ， 这 是 一 种 可 靠 且 较 为 
简便 的 办 法 。 尽 管 更 新 软件 对 解决 bug 确 实 有 一 定 的 帮助 ， 但 无 论 如 何 都 不 要 对 此 抱 有 过 高 的 期 虱 。 


除非 你 能 够 证 明 外 部 代码 确实 有 错 ， 否 则 最 好 是 先 假设 它们 正确 无 误 。 有 些 bug 看 上 去 好 像 是 由 第 三 方 代码 所 引 友 的 ， 然 而 
在 大 多 数 情 况 下 ， 其 实 是 由 于 你 目 己 的 问题 而 造成 的 。30 年 的 调试 历程 中 ， 笔 者 在 自己 的 代码 里 面 修复 了 数 以 干 计 的 bug,， 与 之 
相对 ， 由 于 某 款 流行 的 商业 编译 器 生成 了 错误 的 代码 而 导致 的 bug 只 出 现 了 一 次 ， 由 于 程序 库 而 导致 的 bug 只 出 现 了 几 次 ， 由 于 
操作 系统 的 功能 不 稳定 而 导致 的 bug 只 出 现 了 一 次 ， 由 于 描述 系统 调用 的 文档 有 错 而 导致 的 bug 只 出 现 了 几 次 ， 由 于 工具 和 其 他 
系统 软件 而 导致 的 bug 也 只 出 现 了 几 十 次 。 因 此 ， 对 软件 进行 更 新 的 最 大 意义 ， 束 在 于 给 我 们 提供 一 个 新 的 起 点 ， 令 我 们 可 以 下 
定 决心 来 好 好 清理 自己 的 代码 。 


BR 
- 在 更 新 之 后 的 环境 里 面 重新 尝试 你 所 编写 的 代码 ， 看 看 这 次 会 不 会 出 错 。 
` 不 要 对 更 新 软件 所 市 来 的 效果 抱 有 过 高 的 期 望 。 


. 要 考虑 因 第 三 方 组 件 而 引发 bug 的 可 能 性 。 


第 15 条 : 至 看 第 三 万 组 件 的 源 代 码 ， 以 了 解 其 用 法 


我 们 所 要 调试 的 代码 乙 所 以 会 出 bug， 通 单 并 不 是 由 于 它 使 用 的 第 三 万 程序 库 或 应 用 程序 本 身 有 问题 (参见 第 14 条 ) ， 而 是 
为 它 使 用 这 些 第 三 方 组 件 时 所 米 取 的 方式 有 误 。 


这 种 情况 并 不 令 人 惊 讶 ， 由 于 这 些 软件 本 身 是 作为 黑金 来 与 你 所 写 的 代码 进行 集成 的 ， 因 此 ， 你 不 太 可 能 在 它们 之 间 相 互 协 
调 。 对 于 这 类 问题 来 说 ， 有 一 个 很 有 用 的 办 法 ， 束 是 去 查看 第 三 方程 序 库 、 中 间 件 甚至 是 底层 软件 的 源 代码 。 


首先 ， 如 果 想 查 明 某 个 API 为 什么 没有 像 你 所 期 望 的 那样 运作 ， 或 是 想 查 明 某 条 奇怪 的 错误 消息 是 从 哪里 友 出 来 的 ， 那 么 可 


以 浏览 第 三 方 组 件 的 源 代码 ， 并 搜寻 其 中 你 所 感 兴趣 的 那 一 部 分 ， 以 寻求 答案 。 如 果 想 对 某 个 与 程序 库 有 关 的 功能 进行 调试 ， 那 
么 可 以 在 第 三 方 代码 中 寻找 相关 函数 或 方法 的 定义 ， 然 后 由 此 继续 向 下 查看 。 在 查看 第 三 方程 序 库 的 代码 时 ， 我 们 可 能 并 不 是 要 
在 其 中 寻找 bug， 而 是 想 更 好 地 理解 它 的 工作 原理 以 及 它 与 你 所 写 的 代码 之 间 的 配合 方式 。 如 果 想 知道 某 条 错误 消息 是 从 哪里 来 
的 ， 那 么 可 以 在 整个 代码 库 里 面 搜寻 这 条 消息 ， 并 检查 有 哪些 代码 会 友 出 这 条 消息 (参见 第 23 条 和 第 4 条 ) 。 为 了 能 够 迅速 地 碍 
询 消 数 或 方法 ， 我 们 可 以 用 ctags 或 etags 程 序 为 代码 编制 宁 引 (大 多 效 编辑 器 都 广 持 这 两 个 程序 所 输出 的 率 引 ) ， 也 可 以 及 用 
集成 开 友 环境 (1DE) 来 查看 代码 。 与 ctags 相 比 ，1DE 能 够 更 好 地 处 理 复杂 的 语言 特性 ， 如 重 载 、 覆 苹 以 及 模板 等 ， 而 ctags 的 
优势 则 在 于 支持 的 语言 数量 比较 多 ，5.8 版 本 支持 41 种 语言 。 在 存放 源 代码 的 目录 里 面 运行 下 面 这 条 命令 ,可 以 给 其 中 的 所 有 文 
件 创建 索引 : 


ctags -R . 


如 果 你 所 使 用 的 第 三 方 组 件 是 开源 的 ， 那 么 也 可 以 通过 Black Duck Open Hub Code Search 这 样 的 托管 服务 来 进行 搜索 。 


还 有 一 种 更 为 强大 的 调试 技术 ， 需 要 我 们 移 构 建 市 有 调试 信息 的 第 三 方 组 件 (参见 第 28 条 ) ， 然 后 把 目 己 的 代码 与 这 个 调 
试 版 的 第 三 方程 序 库 相 链接 。 这 样 ， 我 们 残 可 以 像 调试 目 己 的 代码 那样 ， 轻 松 地 在 第 三 方程 序 库 的 代码 里 面 进 行 单 步调 坛 了 ， 而 
且 我 们 还 可 以 使 用 符号 调试 器 (symbolic debugger, AMBA) 来 检视 其 中 的 变量 。 请 注意 ， 某 些 矿 商 (如 Microsoft) 在 
发 行 其 代码 的 时 候 ， 会 把 供 调 试 所 用 的 版 本 或 市 有 符号 的 版 本 也 随 着 普通 版 本 一 起 友 布 出 来 ， 这 样 我 们 就 不 用 目 己 去 构建 包含 调 
试 信息 的 程序 库 了 。 


如 果 bug 确 实 是 由 第 三 方 代码 而 非 自己 的 代码 所 引起 的 ， 那 么 在 能 够 访问 其 源 代码 的 前 提 下 ， 你 可 以 对 此 进行 修改 。 请 注 
意 ， 只 有 人 在 极其 特殊 的 情况 下 ， 才 需要 使 用 这 种 办 法 ， 也 就 是 说 ， 只 有 在 既 找 不 到 合理 的 权宜 方案 又 联系 不 到 厂商 来 对 此 进行 修 
复 的 时 候 ， 才 可 以 考虑 修改 第 三 方程 序 库 的 源 代码 。 一 旦 你 这 人 么 做 ， 束 必须 在 整个 应 用 程序 的 生命 期 内 ， 对 该 程序 库 的 所 有 后 续 
版 本 都 做 出 相应 的 修改 。 此 外 ， 你 还 需要 保证 这 样 的 改动 不 会 违背 相关 的 法 律 条 款 。 例 如 ， 某 些 厂商 在 友 布 代码 的 时 候 ， 会 在 其 
协议 中 要 求 “只 能 看 ， 不 能 改 ” (look, don’ ttouch) 。 对 于 开源 软件 来 况 ， 比 较 合理 的 一 种 做 法 ， 是 将 修改 后 的 代码 提交 
给 负责 该 代码 的 项 目 ， 而 且 从 道理 上 来 讲 ， 你 也 确实 应 该 这 么 做 。 如 果 项 目 托管 在 GitHub 上 ， 那 么 只 需要 友 起 pull request] 
以 了 。 


要 想 运 用 上 面 提 到 的 技术 ， 我 们 必须 先 获 取 到 第 三 方 组 件 的 源 代 码 。 如 果 第 三 方程 序 库 或 应 用 程序 是 开源 的 ， 那 么 很 简单 ， 
只 需要 点 一 下 按钮 ， 就 可 以 把 源 代码 下 载 下 来 了 。 对 于 开源 的 操作 系统 发 行 版 ， 还 可 以 把 源 代 码 作 为 软件 包 来 下 载 ， 例 如 ， 在 
Debian Linux 系 统 中 ， 我 们 可 以 通过 以 下 命令 安装 C 语 言 程序 库 的 源 代码 : 


sudo apt-get install glibc-source 


此 外 ， 很 多 软件 开 友 平台 也 会 将 其 源 代码 中 较为 重要 的 那 一 部 分 ， 安 妆 到 你 的 系统 上 面 。 例 如 ，Microsoft 的 Visual Studio 
会 把 C 语 言 运行 时 库 的 源 代 码 放 在 VC\crt\src 里 面 ， 而 Java Development Kit (JDK) 则 会 把 源 代 码 放 在 名 为 src.zip 的 压缩 文件 
中 。 对 于 其 他 一 些 第 三 方 软件 来 说， 你 可 以 在 订购 软件 时 支付 额外 的 费用 以 获取 其 源码 。 只 要 售 价 不 高 ， 我 们 束 应 该 考虑 这 么 
做 ,若是 等 以 后 再 去 买 ， 则 要 花 很 多 时 间 来 安排 蒜 项 ， 而 且 还 要 下 YJ 单 并 执行 所 需 的 合约 。 等 到 那个 时 候 ， 软 件 厂 商 或 计 已 经 不 
再 支持 你 所 使 用 的 版 本 了 ， 甚 至 有 可 能 已 经 停业 了 。 因 此 ， 我 们 应 该 考虑 提前 获取 这 些 专 有 软件 的 源 代码 ， 以 免 出 现 此 类 问题 。 


Br 
. 如 果 你 依赖 某 个 第 三 方 组 件 ， 那 么 就 应 该 获取 其 源 代 码 。 


: 通过 查看 第 三 方 组 件 的 源 代码 探寻 与 第 三 方 API 及 一 些 奇 怪 的 错误 消息 有 关 的 问题 。 


: 要 和 第 三 方程 序 库 的 debug 版 本 相 链 接 。 


- 只 有 当 其 他 办 法 都 不 可 行 的 时 候 ， 才 需要 对 第 三 方 的 源 代 码 进 行 修改 。 


第 16 条 : 使 用 专 | ] 的 监测 及 测试 设备 


调试 藤 入 式 系 统 及 系统 软件 的 时 候 ， 我 们 可 能 要 对 从 硬件 到 应 用 程序 的 整个 计算 栈 进 行 分 析 。 调 试 工作 一 旦 深入 硬件 层面 ， 
我 们 区 3 需要 关注 电 流 的 微小 变化 以 及 磁 算 的 对 齐 情况 等 细节 。 在 大 多 数 情 况 下 ， 可 以 通过 强大 的 1DE 以 及 一 些 奶 路 软件 与 日 志 记 
录 软 件 来 探查 这 些 问 题 ， 然 而 有 的 时 候 ， 融 连 这 些 工具 也 帮 不 上 忙 。 这 通 单 有 生 在 软件 与 硬件 有 所 接触 的 场合 ， 也 融 是 说， 虽然 
你 认为 你 所 写 的 软件 能 够 像 预期 的 那样 运作 ， 但 是 硬件 却 有 着 它 目 己 的 处 理 方式 。 例 如 ， 你 把 正确 的 数据 写 入 磁盘 ， 再 将 其 读 取 
出 来 ， 却 友 现 这 些 数据 似乎 已 经 损坏 了 。 人 在 调试 这 些 接近 于 硬件 层面 的 问题 时 ， 某 些 奇特 的 设备 有 可 能 给 你 提供 很 大 的 帮助 。 


有 一 种 通用 的 工具 或 许可 以 派 上 用 场 ， 这 束 是 逻辑 分 析 仪 ， 它 能 够 以 每 秒 数 百 万 次 的 采样 率 来 捕获 、 和 存储 并 分 析 数 子 信号 。 
这 些 设备 原来 卖 得 比 汽车 还 贵 ， 但 是 现在 只 要 100 美 元 左右 就 可 以 买 到 一 台 基 于 USB 的 逻辑 分 析 仪 了 。 它 不 仅 能 够 监测 主板 上 面 
的 所 有 数字 信和 号， 而 且 还 能 对 组 件 之 间 进 行 通信 时 所 及 用 的 一 些 高 层 通信 协议 进行 监测 。 某 家 制造 商 (saleae) 所 出 售 的 产品 文 
持 很 多 种 通信 协议 ， 其 产品 信息 中 罗列 了 大 量 的 首 字母 缩 略 词 : “SPI、12C、serial、1-Wire、CAN、UNI/O、12S/PCM、MP 
Mode, Manchester、Modbus、DMX-512、Parallel、JTAG、LIN、Atmel SWI, MDIO, SWD, LCD HD44780, BiSS 
C, HDLC, HDMI CEC, PS/2, USB 1.1, Midi" . 


如 果 你 专门 研究 某 个 特定 的 技术 ， 那 么 可 以 考虑 购买 协议 分 析 仪 或 总 线 分 析 仪 等 专用 的 设备 。 例 如 ， 车 辆 以 及 其 他 机 器 中 的 
微 控制 器 ， 一 般 是 通过 CAN (Controller Area Network， 控 制 器 局 域 网 ) 总 线 来 通信 的 。 有 很 多 公司 都 在 出 售 那 种 可 以 独立 运 
作 的 分 析 仪 器 ， 把 这 些 仪器 插入 总 线 之 后 ， 它 们 就 能 够 对 流 经 总 线 的 数据 进行 过 滤 、 显 示 及 记录 了 。 对 于 其 他 一 些 使 用 范围 较 广 
或 者 更 加 专业 化 的 物理 连接 方式 及 协议 (如 Ethernet、USB、Fibre Channel, SAS, SATA, RapidlO, iSCSI, sFPDP 
OBSAI) 来 疝 ， 也 有 类 似 的 产品 可 供 购买 。 与 基于 软件 的 解决 方案 相 比 ， 这 些 设备 应 该 能 够 在 其 所 宣称 的 线路 速率 之 下 工作 ， 而 
且 它 们 通常 可 以 同时 监测 多 个 数据 通道 ， 并 人 允许 使 用 者 根据 位 于 数据 包 深 处 的 位 模式 (bit pattern) 来 定义 触发 器 与 过 滤器 。 


如 果 没 有 专门 的 硬件 来 进行 调试 ， 那 么 你 应 该 临时 打造 一 个 符合 目 身 需求 的 设备 ， 以 帮助 你 探查 那些 难以 重 现 的 问题 。 几 年 
前 ， 笔 者 遇 到 过 这 样 一 个 问题 : 以 网 页 表单 的 形式 所 实现 的 投 件 箱 ， 可 能 会 丢失 数据 。 这 个 问题 的 难处 企 于 : 尽管 它 在 数 天 之 间 
影响 了 很 多 用 户 并 招致 其 抱怨 (该 程序 有 成 王 上 万 的 用 户 ) ， 但 是 在 我 们 这 里 ， 它 的 出 现 概率 却 很 低 ， 几 乎 无 法 重 现 。 对 受 影响 
的 用 户 所 在 的 地 方 进行 分 析 之 后 ， 我 们 友 现 这 些 用 户 大 多 位 于 侦 远 地 区 。 于 是 ， 我 们 认为 问题 可 能 与 网 络 连接 的 质量 有 关 。 我 拿 
了 一 个 UsB 无 续 独 ， 把 它 用 锡 纸 囊 起 来 ， 以 模拟 信号 强度 较 弱 的 情况 ， 然 后 通过 这 个 无 线 狂 来 连接 应 用 程序 的 Web 界 面 ， 这 次 
果然 束 出 现 了 那个 问题 ， 由 于 该 问题 已 经 能 够 很 方便 地 重 现 出 来 (参见 第 10 条 ) ， 因 此 只 过 了 几 个 小 时 我 们 融 把 它 解 决 了 。 


如 果 你 想 调 试 的 代码 ， 是 以 谋 入 式 软 件 的 形式 来 运行 的 ， 并 且 运 行 该 软件 的 设备 又 缺乏 适当 的 I/O 机 制 ， 那 么 可 以 考虑 采用 
下 面 这 些 技巧 来 与 正在 调试 的 软件 进行 通信 。 


“ 如 果 设 备 有 状态 指示 灯 或 能 够 发 出 响声 ， 那 么 可 以 用 特定 的 闪烁 方式 或 发 声 方式 来 表达 软件 当前 的 状况 。 例 如 ， 可 以 用 响 
一 声 来 表示 软件 进入 了 某 个 特定 的 例 程 ， 用 响 两 声 来 表示 软件 离开 了 该 例 程 。 你 也 可 以 用 摩尔 斯 电码 发 送 更 为 复杂 的 消息 。 


` 把 输出 到 日 志文 件 中 的 信息 先 保存 到 非 易 失 性 的 存储 器 (non-volatile storage) 中 (其 至 可 以 保存 到 外 接 的 UU 盘 中 ) ， 然 后 
将 其 导入 自己 的 计算 机 ， 并 对 其 进行 分 析 。 


. 实现 一 个 简单 的 串 行 数据 编码 器 ， 将 数据 写 入 菜 个 尚未 使 用 的 1/O 针 脚 ， 然 后 对 信号 进行 电 平 转换 ， 将 其 转 为 RS-232 标 


准 ， 并 通过 串口 转 USB 口 的 适配器 及 终端 应 用 程序 来 在 计算 机 上 读 取 这 些 数 据 。 


“ 如 果 设 备 有 网 络 连 接 ， 那 么 显然 可 以 通过 该 连接 来 通信 。 如 果 设 备 缺 乏 对 网 络 日 志 (参见 第 和 条) 或 远程 shell 访 问 提 供 支 
持 的 软件 ， 那 么 可 以 考虑 通过 HTTP 甚 至 DNS 请 求 来 与 外 界 通信 。 


要 想 对 网 络 数据 包 (network packet) 进行 监测 ， 融 应 该 先 把 网 络 硬件 设置 好 ， 令 其 可 以 接受 软件 形式 的 网 络 包 分 析 器 ， 
如 开源 的 Wireshark 等 。 我 在 笔记 本 上 运行 的 Wireshark 版 本 支持 1514 种 (网 络 与 USB) 协议 及 数据 包 类 型 。 如 果 能 把 要 调试 的 
程序 与 Wireshark 放 在 同一 台 计 算 机 中 运行 ， 那 就 可 以 轻而易举 地 监测 网 络 数 据 包 了 。 我 们 只 需要 把 Wireshark 打 开 ， 指 定 自己 
想 要 捕获 的 数据 包 ， 然 后 等 着 看 详细 信息 残 行 了 。 


对 两 人 台 计 算 机 之 间 的 网 络 通 信 (例如 ， 应 用 程序 服务 器 与 数据 库 服务 器 或 负载 均衡 器 之 间 的 通信 ) 进行 监测 ， 或 许 要 显得 困 
难 一 些 。 由 于 这 两 台 计 算 机 可 能 都 要 把 网 线 连 接 到 交换 机 (switch) 上 面 ， 因 此 ， 两 个 相关 端口 之 间 的 通信 就 必须 通过 交换 机 才 
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能 进行 。 这 个 问题 可 以 用 很 多 种 办 法 来 解决 。 


如 果 你 所 在 的 组 织 使 用 的 是 管理 型 交换 机 (managed switch， 这 种 交换 机 比较 贵 ) ， 那 么 可 以 对 其 进行 设置 ， 使 它 把 某 个 
问 口 镜像 到 另外 一 个 端口 上 面 。 也 就 是 说 ， 可 以 把 服务 器 流量 所 经 过 的 端口 镜像 到 我 们 自己 的 计算 机 所 使 用 的 端口 上 面 ， 并 通过 
计算 机 中 运行 着 的 Wireshark 软 件 对流 经 的 数据 进行 捕获 及 分 析 。 


如 果 没 有 这 种 管理 型 交换 机 ， 那 残 试 春 找 一 全 集线器 (hub) ， 这 种 设备 比 前 者 便宜 很 多 ， 它 会 把 接收 到 的 以 太 网 数据 广播 
给 所 有 的 端口 。 由 于 现在 已 经 不 再 生产 集线器 了 ， 因 此 它 通 常 要 比 廉价 的 交换 机 贵 一 些 。 把 待 监测 的 计算 机 和 运行 着 Wireshark 
软件 的 计算 机 连 到 同一 个 集线器 上 面 ， 束 可 以 进行 监测 。 


使 用 tcpdump 这 样 的 命令 行 工具 ， 也 可 以 对 远程 主机 进行 监测 。 我 们 需要 登录 到 待 监测 的 远程 主机 上 ， 并 运行 tcpdump 命 
令 ， 以 查看 目 己 所 天 注 的 网 络 数据 包 。 (该 命令 需要 售 理 员 权限 才能 执行 。) 如 果 还 想 通 过 Wireshark 的 GUI 对 此 进行 深入 分 
析 ， 那 么 可 以 先 用 带 有 -w 选 项 的 tcpdump 命 令 将 原始 数据 包 写 入 文件 中 ， 然 后 再 通过 Wireshark 详 细 地 分 析 它 。 这 种 工作 方式 
很 适合 用 来 监测 基于 云端 的 主机 ， 因 为 你 不 太 容 易 去 调整 其 网 络 配置 。 


最 后 一 种 办 法 是 配置 一 台 计 算 机 ， 并 用 该 计算 机 对 需要 监控 的 计算 机 与 网 络 中 的 其 余 计 算 机 进行 桥接 。 我 们 给 这 人 台 计 算 机 配 
置 两 个 网 络 接 口 (例如 ， 用 其 中 一 个 接口 来 表示 插 有 网 线 的 网 络 端口 ， 用 另 一 个 来 表示 基于 USB 的 端口 ) ， 并 将 这 两 个 端口 桥接 
起 来 。 在 Linux 系 统 中 可 以 通过 brctl 命 令 来 实现 ， 在 FreeBSD 系 统 中 可 以 通过 if_bridge 驱 动 来 配置 。 


此 外 ， 我 们 还 可 以 考虑 对 设备 进行 配置 ， 以 模拟 各 种 不 同 的 网 络 场景 ， 例 如 ， 可 以 模拟 数据 包 从 世界 各 地 的 主机 中 传 过 来 的 
情况 ， 或 是 模拟 流量 整形 (traffic shaping) 、 市 宽 限 制 以 及 防火 墙 配置 等 。 此 时 所 需 的 软件 是 运行 在 Linux 系 统 中 的 
iptables, 


AA 
. 逻辑 分 析 器 、 总 线 分 析 器 或 协议 分 析 器 可 以 帮 你 锁定 接近 于 硬件 层面 的 问题 。 
. 可 以 通过 自制 的 设备 来 探查 与 硬件 有 关 的 问题 。 


` 可 以 通过 将 Wireshatk 与 以 太 网 集线器 相 结合 、 使 用 管理 型 交换 机 或 进行 命令 行 捕获 等 办 法 来 监测 网 络 数据 包 。 


第 17 条 : 使 故障 更 加 突出 


使 故障 显得 更 加 突出 一 些 ， 可 以 提升 调试 工作 的 效率 。 为 了 突出 软件 的 故障 ， 我 们 可 以 对 软件 本 身 ， 或 是 对 其 输入 数据 所 在 
的 环境 进行 修改 。 无 论 怎 样 修改 ， 都 必须 在 版 本 控制 系统 中 进行 ， 而 且 要 在 单独 的 分 支 上 面 修改 ， 这 样 ， 以 后 可 以 轻易 地 恢复 到 
原来 的 版 本 ， 并 且 不 会 在 产品 代码 中 引入 错误 。 


有 时 无 论 怎 么 调试 ， 软 件 都 无 法 像 我 们 期 望 的 那样 运作 。 例 如 ， 尽 管 某 一 组 复杂 的 条 件 显然 可 以 得 到 满足 ， 但 数据 库 里 面 束 
是 没有 出 现 我 们 想 看 到 的 那 条 记录 。 在 这 种 情况 下 ， 有 一 个 比较 好 的 办 法 ， 是 大 幅度 地 改变 软件 的 执行 路 径 ， 并 看 其 运行 结果 与 
你 所 想 的 是 否 相 符 。 如 果 不 答 ， 那 说 明 你 思考 万 同 可 能 有 误 。 


下 面 这 段 代 码 节 选 自 Apache _ HTTP 服务器， 它 用 来 处 理 签 名 证 书 的 时 间 戳 (signed certificate timestamp, SCT) 。 服 务 
器 有 时 可 能 无 法 应 对 比 当 前 日 期 还 大 的 SCT。 


for (1 = 0; 1 < arr->nelts; i++) { 
cur_sct_file = elts[1]; 
rv = ctutil_read_file(p, s, cur_sct_file, MAX_SCTS_SIZE, 
&scts, &scts_size_wide); 
rv = sct_parse(cur_sct_fi le, 
S, (const unsigned char *)scts, scts_size, NULL, 
&fields); 
if (fields.time > apr_time_now()) { 
sct_release(&fields) ; 
continue; 


} 


sct_release(&fields); 


rv = ctutil_file_write_uint1l6(s, tmpfile, 
Capr_uintl16_t)scts_size) ; 
1f (rv != APR_SUCCESS) 
break; 
scts_written++; 


要 想 对 这 种 情况 进行 调试 ， 我 们 可 以 临时 修改 判断 条 件 ， 使 其 总 是 为 真 (true) 。 
if (fields.time > apr_time_now() || 1) { 


这 样 修改 之 后 ， 我 们 就 可 以 判断 出 问题 到 底 是 出 在 修改 之 前 的 Boolean 条 件 上 面 ， 还 是 出 在 测试 数据 或 是 用 来 处 理 “SCT 大 
于 当前 日 期 ”的 那 部 分 逻辑 上 面 。 


还 有 一 些 类 似 的 技巧 可 以 考虑 ， 例 如 ， 在 方法 的 开头 添加 return true 或 return false 语 句 ， 或 是 用 if (0) 把 某 段 代码 包 夏 起 
来 ， 使 得 程序 跳 过 这 段 代 码 (参见 第 46 条 ) 。 


有 时 我 们 可 能 要 调试 一 种 或 隐 或 现 的 效果 。 在 这 种 情况 下 ， 可 以 临时 修改 代码 ， 使 得 这 种 效果 展示 得 更 为 明显 一 些 。 例 如 ， 
在 制作 游戏 时 ， 我 们 想 令 某 个 角色 在 经 历 了 某 种 事件 之 后 的 一 分 钟 之 内 ， 具 备 能 力 提升 的 效果 。 如 果 在 友 生 了 相关 事件 之 后 ,我 
们 无 法 看 出 该 角色 的 能 力 是 否 得 到 了 提升 ， 那 么 可 以 大 幅度 地 增加 能 力 的 提升 值 ， 这 样 就 可 以 更 好 地 进行 观察 了 。 例 如 ， 在 
CAD 程 序 里 面 计算 地 震 对 建筑 物 的 影响 时 ， 我 们 想 对 这 种 计算 逻辑 进行 调试 ， 那 么 可 以 把 显示 出 来 的 结构 位 移 放 大 1000 售 ， 以 
便 更 好 地 看 出 建筑 物 的 移动 幅度 及 移动 方 同 。 


如 果 软 件 的 故障 依赖 于 外 部 因素 ， 那 么 可 以 修改 软件 的 执行 环境 ， 令 其 更 为 迅速 或 更 为 频繁 地 出 现 错误 (参见 第 55 条 ) , 


从 而 凸现 该 故障 。 如 果 软 件 要 处 理 的 是 Web 请 求 ， 那 么 可 以 运用 Apache JMeter 这 样 的 负载 测试 (load test) 或 压力 测试 
(stress test) 工具 ， 把 软件 推进 到 一 种 行为 有 可 能 开始 出 现 异常 的 地 步 。 如 果 软 件 是 通过 多 线程 来 实现 并 友 的 ， 那 么 可 以 增加 
线程 的 数量 ， 使 其 超过 计算 机 的 CPU 核心 数量 所 能 担负 的 值 ， 以 促使 程序 出 现 死 锁 (deadlock) 及 竞争 条 件 (race 
condition) 等 问题 。 此 外 ， 也 可 以 同时 运行 其 他 一 些 耗费 内 存 、CPU、 网 络 或 磁盘 资源 的 进程 ， 人 迫使 你 所 开发 的 这 款 软件 去 和 
那些 进程 争夺 稀缺 资源 。 其 中 特别 有 效 的 一 种 做 法 ， 是 令 软 件 把 数据 写 入 容量 很 小 的 U 盘 中 ， 看 看 它 在 没有 磁盘 空间 的 情况 下 会 
表现 出 什么 行为 。 


最 后 ， 还 有 一 种 办 法 也 可 以 帮助 你 查 出 较为 罕见 的 数据 验证 或 数据 损坏 问题 ， 这 融 是 模糊 测试 (fuzzing) 。 要 想 采 用 这 种 
办 法 来 进行 测试 ， 我 们 可 以 把 随机 生成 的 一 些 值 输入 给 程序 ， 也 可 以 随机 地 扰乱 程序 的 输入 值 ， 然 后 看 看 程序 会 表现 出 何 种 行 
为 。 我 们 的 目标 ， 是 要 找到 一 种 能 够 令 程 序 偶尔 友 生 故障 的 数据 模式 ， 并 及 用 系统 化 的 方式 来 提升 这 种 数据 模式 的 出 现 概 率 。 做 
到 了 这 一 点 之 后 ， 我 们 残 可 以 拿 这 些 有 问题 的 数据 来 调试 程序 了 。 如 果 应 用 程序 在 客户 的 计算 机 上 运行 并 处 理 其 生产 数据 时 总 是 
上 友 生 故障 ， 而 在 你 自己 的 开 友 计算 机 上 运行 时 却 不 会 友 生 故障 ， 那 么 这 个 近 巧 或 许 能 够 帮 你 找到 原因 。 模 糊 测试 可 以 通过 zzuf 这 
样 的 工具 用 来 执行 。 


BR 
` 过 使 软件 去 执行 那些 可 疑 的 路 径 。 
“ 提升 某 些 效果 的 幅度 ， 令 其 变 得 更 加 突出 ， 以 便于 我 们 进行 研究 。 
对 软件 加 压 ， 迫 使 它 走 出 能 够 从 容 应 对 负载 的 那 种 舒适 状态 。 


` 在 版 本 管理 系统 中 临时 创建 一 个 分 支 ， 并 把 所 有 的 修改 都 放 在 这 个 分 支 上 面 来 做 。 


第 18 条 : 从 目 己 的 果 面 计算 机 上 调试 那些 不 太 好 用 的 系统 


Jenny 和 Mike 在 谈论 各 目的 调试 经 历 。Jenny 襄 : “我 不 喜欢 在 客 尸 的 计算 机 上 面 工作 ， 要 用 的 工具 都 没 装 ， 浏 览 器 里 也 没 
有 我 收藏 过 的 书 尝 。 这 真是 太 嘛 烦 了 。 我 访问 不 了 目 己 的 文件 ， 计 算 机 上 的 按键 绑 定 和 快捷 键 ， 设 置 得 也 都 不 对 。 ”Mike 尺 讶 
地 看 着 她 说 : “快捷 键 ? 你 还 有 快捷 键 可 用 ， 这 都 算 不 错 的 了 。 我 调试 的 那 台 计算 机 ， 连 键盘 都 没有 ! “ 


如 果 你 在 工作 时 无 法 使 用 目 己 配置 好 的 这 台 计 算 机 ， 那 么 工作 效率 确实 会 大 幅 降 低 。 除 了 Jenny 抱 优 的 那些 事情 ， 还 会 出 现 
其 他 一 些 琐碎 的 问题 ， 例 如 ， 连 接 因 特 网 或 内 部 网 络 时 受到 限制 、 计 算 机 的 配置 方式 不 符合 习惯 (其 中 既 包括 屏幕 与 座 椅 等 设施 
的 位 置 ， 也 包括 鼠标 与 键盘 等 设备 的 选用 ) 、 必 须 经 过 长 途 跋 涉 到 达 气 候 湿 热 (ES) 的 偏远 地 点 ， 以 及 计算 机 性 能 过 低 等 。 
这 些 问 题目 前 都 特别 常见 ， 而 且 考 虑 到 业界 对 移动 设备 及 物 联网 的 热情 ， 它 们 以 后 还 会 更 加 普遍 。 在 很 多 情况 下 ， 你 都 必须 离开 
目 己 所 习惯 的 这 人 台 高 端 计 算 机 ， 例 如 ， 要 调试 手机 App， 要 调试 市 有 骨 入 式 软件 的 设备 ， 要 解决 只 会 在 客 尸 的 计算 机 上 面 出 现 的 
问题 ， 或 是 要 处 理 数据 中 心里 面 的 紧急 状况 等 。 在 这 些 情 况 下 ， 其 实 你 依然 有 办 法 可 以 继续 使 用 目 己 所 敦 悉 的 键盘 ， 只 不 过 你 
提前 做 好 准备。 


对 于 手机 App 和 某 些 藤 入 式 设 备 来 说 ， 我 们 可 以 在 计算 机 上 面 通过 设备 模拟 器 (device emulator) 来 调试 有 问题 的 应 用 程 
序 。 然 而 从 调试 的 角度 来 看 ， 这 种 方式 除了 可 以 提供 一 些 先 进 的 日 志 记 录 功 能 ， 并 不 会 给 我 们 市 来 太 大 的 帮助 。 有 了 模拟 器 之 
后 ,确实 不 需要 再 触摸 手机 屏幕 上 的 键盘 了 ， 可 是 我 们 无 法 在 模拟 器 里 面 运行 符号 调试 器 。 比 较 好 的 一 点 是 ， 我 们 可 以 同时 在 计 
算 机 里 面 打 开 模 拟 器 与 包含 源 代码 的 编辑 器 ， 这 样 就 能 够 在 修改 完 代 码 之 后 迅速 看 到 结果 ， 而 不 用 再 将 其 部 署 到 实际 的 设备 上 面 


还 有 一 种 更 为 强大 的 办 法 ， 是 创建 software shim (ART) ， 以 便 将 应 用 程序 中 较为 关键 的 那些 部 分 ， 放 在 目 己 的 计算 
机 里 面 来 运行 ， 为 此 ， 我 们 经 单 会 用 到 单元 测试 及 mock 对 象 (参见 第 42 条 ) 。 这 种 办 法 虽然 不 能 够 使 用 图 形 界 面 ， 但 是 却 可 以 
把 一 些 灰 手 的 算法 轻松 地 包含 进来 ， 这 些 算法 需要 进行 大 量 的 调试 才能 够 处 理 好 。 我 们 可 以 在 应 用 程序 的 算法 里 面 设置 挂 钧 ,将 
其 关联 到 某 种 简单 的 (如 基于 文件 的 ) 输入 /输出 上 面 ， 这 样 束 可 以 在 自己 的 计算 机 上 面 直接 编译 并 运行 源 代码 了 ， 而 且 稍 后 也 
可 以 借助 功能 强大 的 调试 器 来 对 其 中 较为 复杂 的 那 一 部 分 进行 单 步 调试 。 


例如 ， 我 们 要 做 一 个 手机 App， 把 社交 网 络 上 面 的 朋友 照片 ， 导 入 手机 的 联系 人 中 。 这 个 程序 有 一 个 比较 困难 的 地 方 ， 就 是 
要 和 社交 网 站 通信 ， 并 与 手机 中 的 联系 人 配对 。 于 是 ， 我 们 可 以 写 一 个 命令 行 工具 来 充当 shim， 该 工具 的 参数 是 某 位 联系 人 的 
名 字 ， 它 会 采用 Facebook/Linkedln/Twitter 等 网 站 的 APl 来 获取 相关 的 信息 ， 并 在 其 中 寻找 与 该 联系 人 相 匹配 的 资料 。 等 我 们 
把 这 部 分 逻辑 调试 好 之 后 ， 就 可 以 把 它 作为 一 个 类 ， 集 成 到 手机 App 里 面 了 。 请 注意 ， 这 部 分 代码 始终 都 应 该 能 够 作为 独立 的 命 
令 来 运行 (例如 ， 可 以 通过 在 类 中 编写 main 方 法 来 做 到 这 一 点 ) ， 因 为 以 后 如 果 出 了 问题 ， 我 们 可 以 直接 编译 并 运行 这 个 命 
$. 

要 处 理 好 与 远程 访问 有 关 的 事宜 ， 以 便 能 够 远程 地 解决 客户 计算 机 上 面 的 问题 。 由 于 远程 访问 通常 需要 管理 员 权限 和 一 些 专 
业 的 技术 知识 ， 因 此 要 提前 做 好 准备 。 尽 管 有 很 多 操作 系统 都 提供 了 远程 访问 其 点 面 的 功能 ， 但 是 技术 支持 人 员 一 般 还 是 愿意 使 
用 Teamyviewer 等 专门 的 应 用 程序 。 此 外 ， 还 可 以 考虑 在 客户 的 计算 机 上 面 安装 一 些 可 以 简化 调试 工作 的 数据 和 工具 。 例 如 ， 安 
装 一 个 查看 器 来 检视 应 用 程序 中 的 二 进 制 文件 ， 或 者 安装 一 个 运行 眼 踪 器 。 如 果 一 定 要 在 第 三 方 计算 机 上 安装 一 款 调试 工具 ， 那 
么 笔者 会 选择 Unix 的 strace 或 truss 命 令 。 顺 便 说 一 句 ， 像 我 们 这 些 做 IT 的 人 ， 经 常会 有 朋友 和 家 人 请 我 们 帮忙 去 解决 计算 机 问 
题 ， 在 这 种 情况 下 ， 远 程 访问 也 可 以 简化 问题 的 解决 过 程 。 


当前 有 很 多 后 疡 运算， 都 是 通过 云 主 机 提供 商 所 搭建 的 机 制 来 完成 的 ， 它 们 会 提供 漂亮 的 Web 界 面 ， 使 得 开 友 者 可 以 在 其 
中 进行 调试 并 访问 控制 台 。 如 果 你 要 调试 的 服务 器 没有 放 在 这 样 的 云 主机 提供 商 那 里 ， 而 是 位 于 阴冷 、 嗜 杂 且 不 便 访问 的 数据 中 
心 ， 那 么 你 束 得 提前 做 好 打算 了 。 由 于 有 些 问题 友 生 在 与 服务 器 建立 网 络 连 接 之 前 ， 因 此 我 们 通常 要 使 用 服务 器 目 身 的 屏幕 及 键 
盘 ， 才 能 够 解决 这 些 问题 。 为 了 免 去 这 种 麻烦 ， 可 以 考虑 采购 KVM over IP 设 备 ， 它 能 够 通过 IP 网 络 来 远程 访问 计算 机 的 键盘 
(keyboard) 、 显 示 器 (video) 及 鼠标 (mouse) 。 如 果 能 够 安 闪 、 配 置 并 测试 好 这 样 一 套 设备 ， 那 你 束 可 以 在 自己 的 桌面 
计算 机 上 ， 对 远程 服务 器 在 启动 过 程 中 所 出 现 的 问题 进行 调试 。 


HA 
: 把 设备 模拟 器 配置 好 ， 以 便 通过 计算 机 屏幕 和 键盘 来 调试 移动 app。 
搭建 shim 机 制 ， 以 便 使 用 自己 计算 机 中 的 工具 来 调试 谈 入 式 代码 。 
为 远程 访问 做 好 准备 ， 以 便 能 够 远程 调试 客户 的 计算 机 。 


配置 KVM over IP 设 备 ， 以 便 调 试 远程 服务 器 上 面 的 问题 。 


第 19 条 : 使 调试 任务 目 动 化 


我 们 或 许 会 找到 很 多 个 与 程序 镑 误 有 关 的 因素 ， 但 是 却 没有 办 法 轻易 推断 出 究竟 哪 一 个 因素 才 是 致使 程序 出 销 的 真正 原因 。 
为 了 把 这 个 原因 找 出 来 ， 我 们 可 以 编写 一 小 段 例 程 或 脚本 ， 把 有 可 能 使 程序 出 钳 的 所 有 情况 全 都 搜索 一 遍 。 如 果 街 搜索 的 情况 比 


较 多 ， 不 便于 手工 进行 搜索 ， 但 是 却 能 够 通过 循环 来 进行 般 历 ， 那 么 融 可 以 考虑 对 其 加 以 目 动 化 。 例 如 ， 如 果 想 饥 历 的 是 200 个 
字符 ， 那 么 可 以 通过 目 动 化 的 脚本 来 实现 ， 然 而 如 果 要 把 用 户 可 能 会 输入 的 所 有 字符 串 全 都 芝 试 一 记 ， 那 么 及 用 目 动 化 脚本 残 不 
ABIES. 


下 面 举 一 个 例子 。 假 设 在 某 次 升级 之 后 ， 我 们 友 现 ， 计 算 机 执行 which 命 令 的 速度 比 原来 慢 了 ， 然 而 把 那 一 串 比 较 长 的 搜索 
路 径 (Windows 和 Unix 系 统 用 PATH 变 量 来 代表 该 路 径 ) 改 成 /usr/bin 之 后 ，which 命 令 的 速度 又 快 了 起 来 。 于 是 问题 束 来 了 : 
在 该 路 径 的 26 个 元 素 中 ， 到 底 是 哪 一 个 元 素 拖 慢 了 which 命 令 的 速度 ? 下 面 这 个 Unix shell 脚 本 ,可 以 显示 出 which 命 令 在 单独 
采用 路 径 中 的 每 一 个 组 成 部 分 时 ， 所 分 别 消耗 的 时 间 (我 们 通过 Cygwin， 在 Windows 系 统 里 面 运行 这 个 脚本 ) 。 


# Obtain path 

echo $PATH | 

# Split the :-separated path into separate lines 

sed 's/:/\n/g' | 

# For each line (path element) 

while read path ; do 
# Display elapsed time for searching through it 
PATH=$path:/usr/bin time -f "%e $path" which 1s >/dev/nul 1 

done 


脚本 所 输出 的 其 中 一 部 分 内 容 如 下 : 


.01 /usr/local/bin 

.01 /cygdrive/c/ProgramData/Oracle/Java/javapath 
.01 /cygdrive/c/Python33 

55 / 

.02 /cygdrive/c/usr/local/bin 

.01 /usr/bin 

.01 /cygdrive/c/usr/bin 

.01 /cygdrive/c/Windows/system32 

.01 /cygdrive/c/Windows 

JG, « 
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由 此 我 们 可 以 友 现 ， 问 题 出 在 只 含有 一 个 斜 线 符号 (/) 的 元 素 上 面 ， 这 个 斜 绪 不 小 心 跑 到 which 命 令 的 搜索 路 径 里 面 来 
了 。 然 后 ， 我 们 对 which 命 令 的 执行 方式 进行 仍 哮 (参见 第 58 条 ) ， 于 是 区 找到 了 问题 的 根源 : 由 于 which 命 令 会 在 路 径 中 的 每 
个 元 素 后 面 补充 一 个 斜 线 ， 因 此 ， 本 来 只 包 合 一 个 斜 线 的 那个 元 素 ， 在 搜索 的 时 候 融 相当 于 变 成 了 双 斜 线 (//) ， 而 Windows 
系统 如 果 遇 到 了 这 种 以 双 和 斜 线 开头 的 路 径 ， 则 会 触 友 查 找 网 络 驱动 器 的 流程 。 


如 果 你 正在 调试 的 这 蒜 软 件 ， 很 难 通 过 脚本 来 执行 芳 举 式 的 搜索 ， 那 么 可 以 考虑 在 程序 中 嵌入 一 个 小 的 例 程 ， 以 实现 相同 的 
目标 。 该 例 程 通过 某 种 算法 (例如 ， 对 某 些 值 进行 迭代 ) ， 把 有 待 测试 的 各 种 情况 全 都 生成 出 来 。 此 外 ， 也 可 以 考虑 使 程序 从 某 
个 外 部 文件 中 ， 把 这 些 有 得 测试 的 情况 读 取 进来 ， 这 样 束 可 以 用 更 为 复杂 的 脚本 或 执行 日 志 中 的 某 些 数 据 来 生成 那个 外 部 文件 
Ts 


最 后 ， 我 们 还 可 以 用 一 些 工具 来 评估 代码 ， 以 检测 其 中 的 APl 违 例 、 内 存 缓冲 区 溢出 以 及 竞争 条 件 等 问题 (参见 第 59 条 和 第 
62 条 ) 。 用 了 这 些 工 具 之 后 ， 原 本 只 需 几 秒 钟 残 能 运行 完 的 测试 分 析 任 务 ， 现 在 可 能 需要 几 十 分 钟 ， 然 而 这 是 值得 等 竺 的 ， 因 
为 它们 毕竟 能 够 帮 你 省 下 大 量 的 时 间 。 


TAR 


+ FOF AE Fp BE h HE A, LRAT SEALS W—-ELAKERFT, MAP AKA OY Saray A o 


第 20 条 : 开始 调试 之 前 与 调试 完毕 之 后 部 要 把 程序 清理 干净 


如 果 你 要 调试 的 软件 有 10 个 地 方 可 能 出 错 ， 那 么 这 些 错 误 束 会 有 上 干 种 (2 的 10 次 方 ) 表现 形式 ， 如 果 有 20 个 地 方 可 能 出 
首 ， 那 么 表现 形式 开会 高 达 一 百 多 万 种 (2 的 20 次 万 ) 。 因 此 ， 在 调试 的 时 候 ， 应 该 优先 天 注 当 前 区 域 中 最 容易 解决 的 那些 问 
题 。 例 如 : 


能 够 借助 工具 而 找到 的 问题 (参见 第 51 条 ) 。 
“ 程序 在 运行 时 所 产生 的 警告 (例如 ， 可 恢复 的 断言 失败 ) o 
` 读 起 来 比较 费解 ， 而 且 与 你 要 调试 的 bug 有 所 关联 的 那些 代码 (参见 第 48 条 ) o 


- 标 有 XXX、FIXME 及 TODO 字 样 ， 或 是 注释 中 写 有 “ 它 应 该 会 …… ?” (should), “RACA” (think) 以 及 “ 它 必 


定 会 …… (must) 等 托 词 的 可 疑 代码 。 
: 其 他 一 些 已 知 但 是 却 容易 忽略 的 小 bug。 
如 果 连 一 个 相对 无 错 的 环境 都 没有 搭建 好 ， 就 匆忙 地 去 调试 那些 棘手 的 问题 ， 那 么 很 可 能 要 遭受 惨痛 的 失败 。 


有 人 也 可 以 举 出 理由 来 反对 这 种 做 法 。 首 先 ， 这 种 做 法 与 “东西 没 坏 束 别人 收 ” (If it ain’ t broke, don’ tfix it) 的 理念 
不 相符 。 其 次 ， 由 于 我 们 可 能 只 是 用 比较 新 的 写法 ,修改 了 系统 代码 中 的 某 一 部 分 ， 因 此 ， 整 个 代码 的 风格 或 许 会 显得 有 些 失 
调 。 面 对 这 些 理由 ， 你 需要 做 出 自己 的 判断 。 如 果 你 认为 清理 代码 肯定 能 帮助 自己 调试 某 个 难以 捕获 的 bug， 那 束 应 该 承担 这 种 
风险 ; 有 反之， 若是 代码 本 身 束 很 脆弱 ， 而 且 你 也 明明 知道 自己 能 够 直接 找到 这 个 bug， 那 就 没有 必要 去 冒险 清理 代码 了 。 


找到 并 修复 程序 错误 之 后 ， 不 要 急 着 去 做 其 他 事情 ， 因 为 你 还 有 两 项 任务 没有 完成 。 第 一 ， 要 在 代码 中 寻找 类 似 的 错误 ,并 
将 其 修复 (参见 第 21 条 ) 。 第 二 ， 要 把 寻找 问题 时 所 做 的 那些 修改 整理 好 (参见 第 40 条 ) 。 有 时 我 们 为 了 凸现 错误 效果 ， 可 能 
会 临时 改动 一 些 代 码 ， 这 些 改动 现在 应 该 予以 还 原 。 如 果 你 是 在 版 本 控制 系统 里 面 ， 单 独 用 一 个 分 支 来 进行 调试 的 (参见 第 26 
条 ) ， 那 么 还 原 起 来 应 该 很 方便 。 此 外 ， 我 们 在 修改 过 程 中 所 添加 的 一 些 代 码 ， 以 后 有 可 能 还 要 用 到 ， 因 此 要 把 这 些 代码 清理 干 
净 并 提交 上 去 , 例如， 断言 、log 语 句 以 及 新 的 调试 命令 等 。 


要 所 
在 开始 调试 重大 的 bug 之 前 ， 先 要 确保 代码 能 够 达到 一 定 的 整洁 程度 。 


. 调试 完毕 之 后 ， 要 把 调试 过 程 中 对 代码 所 做 的 临时 改动 还 原 回 去 ， 并 且 要 把 那些 有 用 的 代码 提交 到 代码 库 。 


第 21 条 : 把 属于 同一 个 类 型 的 所 有 问题 全 都 修复 好 


在 某 一 个 地 万 所 发 生 的 问题 ， 也 有 可 能 出 现在 其 他 地 方 。 之 所 以 会 这 样 ， 可 能 是 因为 开发 者 在 这 些 地 廊 都 米 用 了 相同 的 思路 


来 编程 ， 也 有 可 能 是 因为 使 用 了 某 个 很 容易 遭 a 到 误 用 的 APl， 或 把 错误 的 代码 从 一 个 地 方 复制 到 了 其 他 很 多 地 方 。 在 许多 较为 成 
熟 的 开 友 环境 或 对 安全 要 求 很 高 的 工作 场合 中 ， 开 友 者 并 不 会 在 修复 了 某 一 个 问题 之 后 束 止 步 于 此 ， 而 是 会 把 属于 同一 类 型 的 所 
有 问题 全 都 解决 好 ， 以 防 将 来 再 出 现 类 似 的 错误 。 


例如 ， 你 发 现下 面 这 条 语句 的 除数 可 能 会 是 0， 并 且 已 经 将 该 问题 解决 了 : 
double a = getWeight(subNode) / totalWeight; 


那么 ， 接 下 来 你 还 应 该 搜索 整个 代码 ， 看 看 有 没有 其 他 地 方 也 把 totalWeight 用 作 除 数 。 你 可 以 通过 IDE 或 Unix 的 grep 命 令 
(参见 第 22 条 ) 来 搜索 : 


# Find divisions by totalWeight, ignoring spaces after 
# the / operator 
grep -r '/ *totalWeight' 


做 元 了 这 一 步 之 后 ， 还 应 该 考虑 代码 中 有 没有 其 他 地 方 也 会 出 现 类 似 的 除法 问题 。 我 们 需要 寻找 并 修复 这 些 可 能 出 错 的 地 
万 。 借 助 Unix 的 管道 机 制 ， 可 以 轻松 地 实现 这 种 搜索 。 下 面 这 段 命 令 ， 能 够 在 四 百 万 行 C 语 言 代码 里 面 ， 把 可 能 出 现 除 法 问题 的 
地 万 找 出 来 。 


# Find divisions, assuming spaces around the / operator 

grep -r / |. | 

# Eliminate those involving sizeof 

grep -v '/ sizeof’ | 

# Color divisors for easy inspection and 

# eliminate divisions involving numerical or symbolic constants 
grep --color=always ' / [AO-9A-Z][A,;)]*' | 


# Remove duplicates 
sort -u 


经 过 几 次 过 滤 之 后 ， 可 疑 的 代码 从 2731 行 降 为 ?045 行 ， 又 降 为 2032 行 ， 最 后 只 剩 下 1923 行 。 这 个 代码 量 ， 使 得 我 们 可 以 在 
合理 的 时 间 范 围 忆 内， 将 其 中 的 代码 审视 一 忆 。 尽 管 过 滤 得 并 不 是 特别 严谨 (例如 ，sizeof 有 可 能 返回 9、 符 号 弟 量 的 值 有 可 能 
是 0) ， 但 毕竟 可 以 使 我 们 知道 其 中 有 哪些 代码 可 能 出 现 问题 。 这 要 比 那 种 以 工作 量 过 大 为 从 口 而 根本 不 去 检查 除法 代码 的 做 法 
好 很 多 。 

最 后 我 们 还 要 考虑 的 是 : 怎样 企 将 来 的 工作 中 避免 类 似 的 错误 。 这 可 能 需要 我 们 对 代码 或 者 软件 开 友 流程 做 一 些 调整 。 例 
如 ， 如 果 程 序 总 是 由 于 误 用 有 某 个 API 函 数 而 出 错 ， 那 么 可 以 提供 一 个 更 为 安全 的 版 本 ， 并 且 把 原来 的 版 本 屏蔽 挥 。 例 如 ， 在 项 目 
的 全 局 include 文 件 里 面 ， 可 以 写 上 这 么 一 行 代 码 : 


#define gets(x) USE_FGETS_RATHER_THAN_GETS(x) 


根据 上 述 定义 ， 如 果 有 人 试图 在 程序 里 面 使 用 gets 消 数 (ZARRADRER MM Kim nA) ， 那 么 代码 束 无 法 编译 或 链 
接 。 如 果 程 序 是 因为 对 类 型 错误 的 值 进行 处 理 而 出 错 的 ， 那 么 可 以 考虑 进行 更 为 严格 的 类 型 检查 。 此 外 ， 还 可 以 通过 运用 静态 分 
析 技 术 或 更 为 严谨 的 配置 方案 来 找到 许多 程序 错误 (参见 第 51 条 ) 。 


要 局 


- 修复 了 某 一 个 错误 之 后 ， 我 们 还 需要 寻找 并 解决 其 他 相似 的 错误 ， 并 设法 保证 将 来 不 会 再 出 现 此 类 错误 。 


第 3 章 ” 通 用 的 工具 与 技术 


某 些 专用 的 调试 工具 用 起 来 很 方便 ， 而 且 效率 很 高 ， 但 是 通用 的 调试 工具 依然 有 其 优势 ， 因 为 它们 可 以 迅速 解决 与 各 种 语言 
及 平台 有 关 的 许多 开发 和 操作 问题 。 本 章 所 描述 的 工具 源 自 Unix， 不 过 当前 已 经 可 以 在 GNU/Linux、Windows 及 OS X 等 大 多 
数 操作 系统 上 面 运 行 了 。 这 些 工 具 灵 活 、 高 效 ， 而 且 应 用 范围 较 广 ， 因 此 大 家 应 该 花 一 些 工夫 去 掌握 它们 。 “The Art of 
Command Line” 项 目 可 以 帮助 你 了 解 这 些 工具 的 用 法 ， 该 项 目 是 由 Joshua Levy 创 建 ， 并 由 多 人 协作 编辑 的 。 由 于 笔者 假设 你 
已 经 知道 Unix 命 令 行 及 正则 表达 式 的 基础 知识 ， 因 此 我 们 直接 开始 讲解 怎样 用 这 些 工具 与 方法 进行 调试 。 


第 22 条 : 用 Unix 命 令 行 工 具 对 凋 试 数据 进行 分 析 


调试 程序 的 时 候 ， 可 能 会 而 到 原来 从 未 遇见 的 问题 。 编 写 软件 所 使 用 的 1DE， 或 许 缺 之 足 够 强大 的 工具 来 供 你 详细 探查 这 些 


问题 。 这 正 是 Unix 命 令 行 工 具 可 以 派 上 用 场 的 地 方 。 这 些 通用 的 工具 可 以 通过 管道 进行 丰富 的 组 合 ， 从 而 令 你 能 够 轻松 地 对 文 
本 数据 进行 分 析 。 


在 开发 者 所 经 手 的 各 种 调试 数据 中 ， 最 有 用 且 最 常见 的 形式 ， 束 是 基于 文本 行 的 数据 流 。 这 种 数据 流 可 以 用 来 表示 调试 时 所 


遇 到 的 各 类 数据 ， 例 如 ， 程 序 的 源 人 代码、 程序 的 日 志 、 版 本 控制 系统 的 历史 记录 、 文 件 清单 、 符 号 表 、 压 缩 文档 的 内 容 、 错 误 消 
息 、 测 试 结果 以 及 与 性 能 分 析 有 关 的 数据 等 。 对 于 经 常 需要 执行 的 很 多 种 任务 来 说 ， 你 可 能 更 愿意 采用 强大 而 万 能 的 脚本 语言 来 
处 理 数据 ， 如 Perl、Python、Ruby 或 Windows PowerShell 等 。 如 果 上 脚本 语言 的 界面 能 够 较 好 地 获取 待 调试 的 数据 ， 而 且 你 也 


能 够 较为 流畅 地 用 该 语言 进行 交互 式 的 开 友 ， 那 么 这 种 办 法 就 比较 合适 ， 否 则 ， 你 可 能 丈 必 须 编写 一 个 小 型 的 独立 程序 ， 并 将 其 


保存 成 文件 了 。 这 样 做 或 许 比较 枯燥 ， 促 使 你 又 改 回 原来 那 种 手动 调试 的 办 法 。 这 会 令 你 无 法 在 调试 过 程 中 抓 住 一 些 关键 的 内 


一 般 来 训 ， 更 为 有 效 的 做 法 应 该 是 把 各 种 Unix 工 具 连 成 一 条 简洁 的 管道 ， 从 而 可 以 在 命令 提示 符 界 面 中 运行 。 由 于 当前 的 
shell 提 供 了 较 好 的 命令 行 编辑 能 力 ， 因 此 我 们 可 以 逐步 打造 命令 ， 直 至 其 符合 需求 。 

本 条 目 将 会 概述 怎样 用 Unix 命 令 来 处 理 调试 数据 。 如 果 你 不 太 熟 悉 命 令 行 的 基本 知识 与 正则 表达 式 的 用 法 ， 那 么 请 参考 网 
上 的 教程 。 此 外 ， 你 也 可 以 把 该 命令 的 名 称 当 作 参 数 ， 传 给 man 命 令 ， 以 查看 其 各 种 选项 的 用 法 。 


有 一 些 操作 系统 可 以 轻而易举 地 访问 Unix 命 令 行 界面 ， 另 外 一 些 系统 配置 起 来 也 不 是 特别 困难 。 在 Unix 与 OS X 系 统 中 ， 只 
需要 打开 终端 窗口 ， 残 可 以 执行 Unix 命 令 了 。 而 在 Windows 系 统 中 ， 最 好 的 做 法 则 是 安装 Cygwin ， 这 是 一 各 移植 到 Windows 
平台 上 面 的 软件 包 管理 器 ， 其 中 包 合 很 多 Unix 工 具 ， 它 的 功能 比较 强大 ， 而 且 运 行 得 也 较为 流畅 。 接 下 来 会 提 到 几 球 没有 默认 
安装 在 OS X 系 统 中 的 工具 ，Homebrew 软 件 包 管理 器 可 以 简化 这 些 工具 的 安 妆 过 程 。 


我 们 会 用 Unix 工 具 打造 很 多 只 包含 一 行 代 码 的 调试 程序 ， 这 种 程序 所 遵循 的 沉 程 大 致 是 : 获取 一 一 饰 选 一 一 处 理 一 一 汇 
忌 。 我 们 可 能 需要 运用 管道 机 制 来 把 各 个 部 分 连 成 整体 。 最 有 用 的 管道 操作 符咒 是 管道 符号 (|) ， 它 可 以 把 上 一 个 步骤 所 输出 
的 内 容 友 大 给 下 一 个 步骤 ， 令 其 成 为 该 步骤 的 输入 什 。 


你 需要 处 理 的 大 部 分 数据 ， 都 是 文本 形式 的 数据 ， 它 们 可 以 直接 发 送 给 Unix 工 具 的 标准 输入 端 。 如 果 数 据 不 是 文本 形式 
那 束 需要 对 其 进行 转换 。 例 如 ， 对 于 Unix 系 统 、Windows 系 统 及 Java 平 台 的 目标 文件 来 说 ， 可 以 分 别 使 用 nm、dumpbin 及 
javap 命 令 来 深入 查看 其 内 容 。 例 如 ， 如 果 某 个 C 或 C++ 程 序 意外 地 退出 ， 那 么 可 以 用 nm 命令 查看 其 目标 文件 ， 以 获知 其 中 哪些 
文件 调用 了 (或 者 说 引 入 了 ) exit 


# List symbols in all object files prefixed by file name 
nm -A *.o | 

# List lines ending in U exit 

grep 'U exit$' 


该 命令 所 输出 的 结果 ， 可 能 要 比 搜索 源 代码 所 得 到 的 结果 更 为 精确 ， 例 如 ， 它 会 输出 下 面 这 样 的 内 容 : 


cscout.o: U exit 
error.o: U exit 
1dquery.o: U exit 
md5.0: U exit 
pdtoken.o: U exit 


如 果 要 处 理 的 文件 位 于 压缩 文档 中 ， 那 么 可 以 用 tar、jar 或 ar 命 令 来 诅 看 压缩 包 的 内 容 。 如 果 要 处 理 的 数据 位 于 一 大 批文 件 
中 ， 那 么 可 以 用 find 命 令 来 寻找 你 所 关注 的 内 容 。 如 果 要 处 理 的 数据 存放 在 网 上 ， 那 么 可 以 用 curl 或 wget 把 它 下 载 下 来 。 此 外 ， 
也 可 以 通过 dd (结合 /dev/zero 这 个 特殊 文件 ) 、yes 以 及 jot 命 令 来 生成 一 些 人 工 数据 ， 在 进行 快速 的 benchmark (基准 测试 ) 
时 ， 可 能 会 用 到 这 些 命 令 。 最 后 要 注意 ， 在 处 理由 编译 器 所 给 出 的 一 系列 错误 消息 时 ， 你 可 能 想 把 标准 错误 重 定向 到 标准 输出 或 
某 个 文件 上 面 ， 这 可 以 通过 2> &1 及 2>filename 等 形式 来 实现 。 例 如 ， 在 修改 了 某 个 遂 数 的 接口 之 后 ， 你 想 把 受到 影响 的 所 有 
文件 全 都 编辑 一 遍 ， 那 么 可 以 通过 下 面 这 条 命令 管道 ， 把 这 些 文件 显示 出 来 。 


# Attempt to build all affected files redirecting standard error 
# to standard output 
make -k 2>&1 | 
# Print name of file where the error occurred 
awk -F: '/no matching function for call to Myclass::myFunc/ 
+ BEING Sl?’ | 
# List each file only once 
sort -u 


对 于 日 志文 件 以 及 调试 所 用 的 其 他 数据 源 来 咒 ， 其 中 所 包含 的 数据 是 多 种 多 样 的 ， 因 此 在 大 多 数 情况 下 ， 我 们 都 只 需要 用 到 
其 中 的 某 一 部 分 数据 。 我 们 有 可 能 只 需要 处 理 每 一 行 中 的 某 些 字 段 ， 或 是 只 需要 处 理 全 部 文本 中 的 某 些 文本 行 。 如 果 文 本 行 包含 
金 度 固定 的 字段 ， 或 是 包含 由 空格 或 其 他 字段 分 隅 符 所 区 隅 的 元 素 ， 那 么 可 以 通过 cut 命 令 把 某 一 列 的 内 容 裁剪 出 来 。 如 果 文 本 
行 无 法 清晰 地 分 隅 成 子 段 ， 那 么 我 们 一 般 会 通过 市 有 正则 表达 了 式 的 sed 命 令 ， 把 目 己 所 需 的 那 一 部 分 提取 出 来 。 


如 果 要 从 许多 文本 行 中 获取 其 中 的 一 部 分 文本 行 ， 那 么 应 该 使 用 grep 命 令 。 我 们 通过 正则 表达 式 来 指定 待 匹配 的 文本 行 ， 
并 通过 -v 标 志 来 把 不 需要 处 理 的 文本 行 过 滤 掉 。 人 在 第 21 条 中 ， 笔 者 曾经 用 下 面 这 条 管道 命令 来 寻找 包含 除法 操作 但 是 除数 不 含 
sizeof 的 文本 行 。 


grep 一 人 
grep -v / sizeof' 


如 果 你 要 根据 纯 文字 而 不 是 正则 表达 式 .来 进行 搜索 ， 而 且 待 搜索 的 内 容 保存 在 文件 中 (该 文件 有 可 能 是 由 前 一 个 步骤 所 生成 
AY) ， 那 么 可 以 使 用 市 有 -f 标 志 的 fgrep 来 实现 (该 命令 是 一 种 适用 于 固定 字符 串 的 grep 命 令 ) 。 比 较 复杂 一 些 的 筛选 标准 ， 可 
以 写成 awk 命 令 的 模式 表达 式 (pattern expression) 。 我 们 经 常 需要 对 这 些 办 法 进行 多 次 组 合 ， 以 获取 目 己 想 要 的 结果 。 例 
如 ， 可 以 先 用 grep 命 令 找 出 目 己 感 兴趣 的 那些 文本 行 ， 然 后 通过 grep-v 命 令 排除 一 些 与 问题 无 关 的 样本 ， 最 后 通过 awk 命 令 把 
每 一 行 中 的 特定 字段 提取 出 来 。 例 如 ， 下 面 这 一 系列 命令 ， 束 能 够 对 trace.out 文 件 进行 搜索 ， 并 显示 出 已 经 顺利 开局 的 每 一 份 
文件 的 名 字 。 


# Output lines that call open 

grep ‘Aopen(' trace.out | 

# Remove failed open calls (those that return -1) 
grep -v ‘= -1 | 

# Print the second field separated by quotes 

awk -F\" '{print $2}' 


(上 面 这 些 命令 其 实 只 需要 用 一 条 awk 命令 就 可 以 实现 ， 但 是 像 这 样 分 步骤 来 构建 命令 管道 ， 做 起 来 会 更 容易 一 些 。 ) 


处 理 数 据 的 时 候 ， 我 们 经 常 需要 根据 特定 的 字段 来 对 文本 行进 行 排序 。sort 命 令 有 数 十 种 选项 ， 可 以 指定 排序 所 用 的 键 、 这 
些 键 的 类 型 以 及 输出 的 顺序 。 排 好 序 之 后 ， 接 下 来 可 以 统计 每 一 种 元 素 的 出 现 次 数 ， 这 可 以 通过 带 有 -c 选 项 的 uniq 命 令 来 实 
现 ， 然 后 ， 我 们 通常 还 需要 对 uniq 命 令 所 给 出 的 结果 再 排 一 次 顺序 ， 这 次 采用 的 是 -n 标 志 ， 它 能 够 按照 数字 顺序 进行 排列 ， 使 
我 们 可 以 看 到 出 现 最 为 频繁 的 那个 元 素 。 有 时 我 们 需要 对 比 某 一 个 程序 前 后 两 次 的 运行 结果 。 如 果 这 两 次 运行 的 结果 应 该 是 相同 
的 (这 个 运行 结果 或 许 指 的 是 回归 测试 所 输出 的 内 容 ) ， 那 么 就 用 diff 命 令 来 看 看 它们 是 不 是 真 的 完全 一 样 ， 如 果 要 对 比 的 是 两 
份 有 序列 表 ， 则 应 该 使 用 omm 命 令 。 更 为 复杂 一 些 的 任务 ， 还 是 需要 用 到 awk 命令 。 下 面 举 一 个 例子 。 假 设 我 们 要 调查 资源 泄 
漏 的 原因 ， 那 么 首先 应 该 做 的 事情 ， 融 是 把 那些 虽然 直接 调用 了 obtainResource， 但 却 没有 直接 调用 releaseResource 的 文件 全 
都 找 出 来 。 这 可 以 用 下 面 这 条 命令 管道 来 实现 。 


# List records occurring only in the first set 


comm -23 <( 
# List names of files containing obtainResource 


grep -rl obtainResource . | sort) <( 


# List names of files containing releaseResource 
grep -rl releaseResource . | sort) 


(bash shell 提 供 了 一 种 扩展 机 制 ， 可 以 把 一 串 命令 以 < (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ebook/uncompressed/16340/OEBPS/Text/...) 的 形式 括 起 来 ， 使 得 这 些 命令 的 执行 结果 ， 能 
够 像 文件 那样 ， 作 为 参数 传 给 其 他 命令 。) 


在 很 多 情况 下 ， 处 理 完 之 后 的 数据 量 依然 很 大 ， 还 需要 进行 进一步 的 加 工 。 比 如 ， 我 们 并 不 天 心 日 志 里 面 有 哪些 文本 行 用 来 
表示 程序 错误 ， 而 是 关心 错误 出 现 了 多 少 次 。 其 实 有 很 多 问题 ， 都 可 以 通过 对 前 一 个 步 又 的 输出 信息 进行 字数 统计 而 解决 ， 我 们 
只 需要 使 用 简单 的 wc (word count， 字 数 统计 ) 命令 ， 并 配 以 -| 标志 即 可 。 如 果 想 显示 出 结果 列表 中 的 开头 10 个 或 未 尾 10 个 元 
素 ， 那 么 可 以 把 访 列 表 传 给 head 或 tail 售 令 。 下 面 这 一 串 命 令 ， 可 以 找到 对 某 份 文件 最 为 丈 悉 的 那些 人 (在 寻找 代码 评审 员 的 时 


候 ， 可 能 会 用 到 这 些 命令 ) 。 


# List each line's last modification 
git blame --line-porcelain Foo.java | 

# Obtain the author 

grep ‘Aauthor ' | 

# Sort to bring the same names together 
sort | 

# Count by number of each name's occurrences 
uniq -C | 

# Sort by number of occurrences 

sort -rn | 

# List the top ones 

head 


tail 命 令 尤其 适合 用 来 查看 日 志文 件 (参见 第 23 条 和 第 56 条 ) . WS, URS FHSSASMA, PATNA, SH 
输送 给 more 或 less 命 令 ， 这 两 条 命令 都 允许 我 们 在 文本 查看 界面 中 来 回 浏 览 ， 并 搜寻 特定 的 字符 串 。 如 果 这 些 万 法 都 不 能 满足 
需要 ， 我 们 可 以 考虑 用 awk 命令 来 实现 ， 比 如 ， 当 我 们 想 通 过 sum+ =$3 这 样 的 形式 ， 对 特定 字段 进行 求 和 的 时 候 ， 通 常 就 可 以 
采用 awk 命令 来 做 。 下 面 这 个 例子 会 对 Web 服 务 器 的 日 志 进 行 处 理 ， 显 示 出 请 求 的 数量 以 及 每 次 请 求 所 传输 的 平均 字数 。 


awk ' 

# When the HTTP result code is success (200) 

# sum field 10 (number of bytes transferred) 

$9 == 200 {sum += $10; count++} 

# When input finishes, print count and average 

END {print count, sum / count}' /var/log/access.log 


各 种 Unix 构 建 块 ， 必 须 相互 粘 合 起 来 ， 才 能 发 挥 效用 。 为 此 ， 我 们 需要 使 用 Bourne shell 的 某 些 机 制 。 例 如 ， 如 果 要 用 多 个 
不 同 的 参数 来 分 别 执行 同一 个 程序 ， 那 么 可 以 把 这 些 参数 传 给 xargs 命 令 的 输入 端 。 典 型 的 用 法 是 通过 find 命 令 构造 一 份 文件 列 
表 ， 然 后 用 xargs 命 令 对 其 进行 处 理 。 由 于 这 种 用 法 非常 普遍 ， 因 此 这 两 个 命令 都 分 别提 供 了 相关 的 选项 (-print0 及 -0) ， 使 得 
其 数据 以 null 字 符 而 非 空 格 符 绪 尾 ， 以 便 正 确 处 理 包 含 空 格 的 文件 名 (例如 ，Windows 系 统 的 “Program Files” 文 件 夹 ， 其 名 
称 中 融 市 有 空格 ) 。 假 设 要 从 创建 时 间 晚 于 foo.cpp 文 件 修改 时 间 的 那些 日 志文 件 里 面 ， 把 字符 串 “access failure” 出现 次 数 最 
多 的 那 份 日 志 找 出 来 ， 那 么 可 以 用 下 面 这 条 命令 管道 来 实现 。 


# Find all files in the /var/log/acme folder 

# that were modified after changing foo.cpp 

find /var/log/acme -type f -cnewer ~/src/acme/foo.cpp -printo | 
# Apply fgrep to count number of ‘access failure’ occurrences 
xargs -0 fgrep -c ‘access failure’ | 

# Sort the :-separated results in reverse numerical order 

# according to the value of the second field 

sort -t: -rn -k2 | 

# Print the top result 

head -1 


如 果 要 做 的 处 理 比较 复杂 ， 那 么 可 以 通过 管道 把 数据 发 送 给 while readh (Bourne shell 的 功能 很 强大 ， 我 们 可 以 通过 管 
道 把 数据 送 入 各 种 控制 结构 中 ， 也 可 以 通过 管道 将 数据 从 控制 结构 中 导出 ) 。 比 如 ， 如 果 你 怀疑 某 个 问题 是 由 于 更 新 了 系统 的 
DLL (dynamically linked library， 动 态 链接 库 ) 文件 ， 那 么 可 以 用 下 面 这 条 命令 管道 显示 出 windows/system32 目 录 里 面 所 有 


DLL 文件 的 版 本 。 


# Find all DLL files 
find /cygdrive/c/Windows/system32 -type f -name \*.dll | 
# For each file 
while read f ; do 
# Obtain its Windows path with escaped \ 
wname=$(cygpath -w $f | sed 's/\\/\\\\/g') 
# Run WMIC query to get 1ts name and version 
wmic datafile where "Name=\"$wname\"" get name, version 
done | 
# Remove headers and blank lines 
grep windows 


如 果 在 尝试 了 各 种 管道 拼接 的 办 法 之 后 ， 还 是 无 法 达到 想 要 的 结果 ， 那 么 可 以 用 一 系列 中 介 文 件 来 处 理 这 些 数据 。 
节点 
* 用 Unix 命 令 来 获取 、 筛 选 、 处 理 并 汇总 文本 记录 ， 从 而 实现 对 调试 数据 的 分 析 。 


“ 把 Unix 命 令 用 管道 连接 起 来 ， 可 以 迅速 完成 很 多 复杂 的 分 析 任务 。 


第 23 条 : 擎 握 售 令 行 工具 的 各 种 选项 及 习惯 用 法 


如 果 你 要 调试 的 程序 打印 出 了 “Missing foo” 这 样 一 条 奇怪 的 错误 消息 ， 那 么 应 该 如 何 寻 找 造 成 该 错误 的 源 代码 呢 ? 这 可 
以 用 下 面 的 命令 来 实现 : 


fgrep -Ir ‘Missing foo' 


在 包含 应 用 程序 源 代码 的 目录 里 面 运行 上 述 命令 ， 可 以 递归 式 地 搜索 (-r) 其 中 的 所 有 文件 ， 并 把 包含 错误 消息 的 文件 列 出 
来 (-l) 。 用 grep 命 令 来 搜索 文本 ， 其 优雅 之 处 在 于 : 无 论 产 生 错 误 消息 的 源 代码 是 用 哪 一 种 编程 语言 写 的 ， 我 们 都 可 以 把 它 找 
出 来 。 如 果 应 用 程序 使 用 了 许多 种 编程 语言 ， 或 是 我 们 没有 时 间 在 1DE 中 为 此 专门 设置 一 个 项 目 ， 那 么 grep 命 令 所 提供 的 文本 搜 
寻 功 能 就 显得 尤为 有 用 。 请 注意 ，fgrep 命 令 的 -r 选 项 ， 是 GNU 的 扩展 功能 ， 崇 尚 经 典 Unix 风 格 的 人 ， 可 能 不 喜欢 这 种 用 法 。 如 
果 你 所 用 的 系统 没有 这 个 功能 ， 那 么 可 以 通过 下 列 命 令 管 道 来 实现 同样 的 效果 : 


find . -type f | 
xargs fgrep -1 ‘Missing foo' 


我 们 要 查看 的 数据 中 ， 通 常会 包含 很 多 无 天 的 信息 ， 也 就 是 说 ， 会 包含 很 多 我 们 不 想 看 到 的 内 容 。 芝 有 正则 表达 式 的 grep 
命令 ， 可 以 把 相关 的 信息 筛选 出 来 ， 然 而 在 很 多 情况 下 ， 直 接 用 grep 命 令 的 -v 选 项 将 无 用 的 信息 抛 开 ， 可 能 会 更 简单 一 些 。 许 
多 条 这 样 的 命令 组 合 起 来 之 后 ， 其 效果 特别 好 。 比 如 ， 下 面 这 条 命令 管道 可 以 显示 出 包含 字符 串 “Missing foo" ， 但 是 不 包 
S “connection failure” 或 “test” 的 所 有 日 志文 件 。 


fgrep ‘Missing foo' *.log | 
fgrep -v ‘connection failure’ | 
fgrep -v test 


grep 命 令 可 以 把 与 正则 表达 式 相 匹配 的 所 有 文本 行 打 印 出 来 ， 但 是 如 果 这 些 文本 行 比较 长 ， 那 么 或 许 很 难看 出 程序 错误 究 
竟 是 由 其 中 哪 一 部 分 代码 所 造成 的 。 比 如 ， 我 们 怀疑 某 个 问题 可 能 与 一 份 (格式 不 当 的 ) HTML 文 件 中 的 table 标 记 有 关 ， 那 么 
怎样 才能 把 这 些 标记 (tag) 迅速 浏览 一 思 呢 ? 这 可 以 通过 grep 命 令 的 --color 选 项 来 实现 。 比 如 ，grep--color table file.htm| 
命令 会 用 红色 凸现 所 有 的 table 标 签 ， 以 便于 查看 。 


按照 惯例 ， 运 行 在 命令 行 界面 中 的 程序 ， 不 会 把 错误 消息 友 送 到 标准 输出 端 ， 因 为 那样 做 可 能 会 对 需要 处 理 标 准 输出 端的 其 
他 程序 造成 干扰 ， 此 外 ， 如 果 程 序 的 操作 员 把 输出 端 重 定向 到 某 个 文件 中 ， 那 么 还 会 造成 该 操作 员 很 难 在 文件 里 面 分 辨 出 这 些 错 
误 消息 。 因 此 ,程序 一 般 会 把 错误 消息 友 送 到 另外 一 个 渠道 ， 也 束 是 标准 错误 喘 。 如 果 在 终端 界面 中 执行 命令 ， 那 么 即便 对 其 输 
出 做 了 重 定 同 ， 我 们 通常 也 还 是 能 够 看 到 这 些 错 误 消息 。 然 而 在 调试 程序 的 时 候 ， 我 们 可 能 需要 对 错误 消息 进行 处 理 ， 而 不 想 看 
它们 在 屏幕 上 面 飞 深 ， 于 是 ， 可 以 用 两 种 办 法 来 对 标准 错误 端 进行 重 定向 。 第 一 种 办 法 ， 是 在 运行 程序 的 时 候 ， 通 过 
2>filename 这 样 的 形式 来 把 标准 错误 端 (按照 惯例 ， 其 文件 摘 述 符 是 2) 友 送 到 某 个 文件 中 ， 以 便 进行 后 续 的 处 理 。 还 有 一 种 办 
法 ， 是 把 标准 错误 端 重 定向 到 与 标准 输出 端 相 同 的 那个 文件 描述 符 上 面 (其 文件 摘 述 符 是 1) ， 以 便 通 过 同一 个 省 遵 来 处 理 这 两 
种 信息 。 比 如 ， 下 面 这 条 命令 可 以 把 标准 输出 与 标准 错误 一 起 友 送 给 more 命 令 ， 使 得 我 们 能 够 在 其 界面 中 随意 翻 看 这 些 信息 、。 


program 2>&1 | more 


在 调试 web 服 务 器 等 非 交 互 式 的 程序 时 ， 我 们 所 关注 的 那些 操作 ， 通 常 都 会 记录 在 日 志文 件 中 (参见 第 56 条 ) 。 我 们 不 应 
该 频繁 地 打开 日 志文 件 ， 去 查看 里 面 发 生 了 什么 变化 ， 而 是 应 该 用 带 有 -f 选 项 的 tail 命 令 来 监测 它 的 增长 情况 。 该 命令 会 一 直 打 
开 日 志文 件 ， 并 且 会 注册 一 个 事件 处 理 程序 。 当 日 志 发 生变 动 时 ， 这 个 处 理 程序 就 会 得 到 通知 ， 从 而 使 tail 命 令 能 够 及 时 展示 日 
志 中 的 变化 。 向 日 志文 件 中 写 入 内 容 的 那个 进程 ， 在 某 些 情况 下 可 能 会 删除 日 志 或 修改 其 名 称 ， 同 时 创建 一 份 与 原 日 志 同 名 的 新 
文件 (比如 ， 它 可 能 是 想 把 原来 的 日 志 内 容 保存 成 男 外 一 个 文件 ， 并 且 用 新 的 日 志文 件 来 记录 新 内 容 !1) ， 在 这 种 情况 下 ， 我 们 
可 以 给 tail 命 令 传 入 --follow=name 选 项 ， 使 得 该 命令 能 够 按照 文件 名 ， 而 不 是 按照 文件 描述 符 来 追踪 文件 。 用 tail 命 令 监测 日 
志文 件 的 时 候 ， 应 该 单独 把 它 放 在 一 个 窗口 里 面 去 观察 (这 个 窗口 可 以 调 得 小 一 些 ) ， 这 样 就 可 以 在 调试 应 用 程序 的 过 程 中 ， 随 
时 看 到 该 文件 所 发 生 的 变化 了 。 如 果 日 志 里 面 有 很 多 与 调试 工作 无 关 的 文本 行 ， 那 么 可 以 用 grep 命 令 对 tail 的 输出 信息 进行 搜 
索 ， 从 而 把 感 兴趣 的 那 部 分 内 容 展示 出 来 。 


sudo tail /var/log/maillog | fgrep 'max connection rate 


如 果 要 调试 一 种 不 经 党 出现 的 程序 错误 ， 那 么 应 该 设置 一 套 监测 机 制 ， 使 我 们 能 够 在 程序 出 现 该 错误 时 得 到 通知 (参见 第 
27 条 ) 。 对 于 那些 只 需要 监测 一 次 的 情况 来 襄 ， 可 以 给 程序 后 面 加 上 & 竺 号， 并且 通过 nohup 工 具 来 执行 ， 这 样 ， 即 便 登 出 了 
当前 的 shell， 系 统 也 依然 会 在 后 台 运 行 该 程序 。 稍 后 我 们 可 以 在 名 为 hohup.out 的 文件 里 面 但 看 程序 的 输出 信息 与 错误 信息 。 
我 们 也 可 以 通过 管道 ， 把 程序 的 输出 信息 友 送 给 mail 命 令 ， 以 便 在 程序 执行 完毕 之 后 得 到 通知 。 对 于 在 当天 的 工作 时 间 之 内 束 能 
够 运行 完 的 程序 来 说 ， 可 以 通过 下 面 这 条 命令 ,使 得 系统 在 执行 完 该 程序 之 后 友 出 提示 音 。 


long-running-regression-test ; printf '\a' 


把 上 面 两 种 近 巧 结合 起 来 ， 束 可 以 在 日 志 里 面 出 现 特定 的 文本 行 时 ， 友 出 提示 音 或 寄 送 邮件 了 。 


sudo tail -f /var/log/secure | 
fgrep -q ‘Invalid user' ; printf '\a' 


sudo tail -f /var/log/secure | 
fgrep -m 1 ‘Invalid user | 
mail -s Intrusion jdh@example.com 


如 果 修改 上 述 命令 ， 将 其 与 while read 循 环 相 结 合 ， 那 么 还 可 以 使 提示 的 过 程 一 直 运 行 。 不 过 这 种 做 法 实际 上 相当 于 在 搭建 
底层 的 监控 系统 ， 对 于 这 种 用 途 来 说 ， 有 更 为 专业 的 工具 可 供 考 虑 (参见 第 27 条 ) 


` 通过 gtep 命 令 的 各 种 选项 对 搜索 的 结果 进行 逐步 筛选 。 
对 程序 的 标准 错误 端 进行 重 定向 ， 以 便于 分 析 。 
- 用 tail-f 命 令 来 监控 内 容 持续 增加 的 日 志文 件 。 


[1] 也 称 为 日 志 轮 替 〈logtotate) 。 


TEA IE 


第 24 条 : 用 编辑 器 对 调试 程序 时 所 需 的 数据 进行 洲 览 


大 家 可 能 都 认为 调试 器 是 调试 工作 的 主要 帮手 ， 但 是 代码 编辑 器 与 IDE， 通 弟 也 可 以 很 好 地 确定 出 bug 的 源头 。 这 里 所 说 的 
编辑 器 和 IDE， 是 指 Emacs 或 vim 等 功能 强大 的 编辑 器 与 IDE。 无 论 你 选用 的 是 哪 种 编辑 器 ， 它 都 应 该 比 系 统 自 市 的 编辑 器 更 为 高 
级 ， 也 就 是 说 ， 要 比 Windows 系 统 的 Notepad、OS X 系 统 的 TextEdit 以 及 各 种 Unix 发 行 版 的 Nano 与 Pico 更 为 高 级 ， 因 为 这 些 
内 置 的 编辑 器 仪 仪 提 供 了 最 基本 的 功能 。 


编辑 器 的 搜索 功能 ， 可 以 在 代码 里 面 寻 找 与 待 查 的 问题 有 关 的 绕 索 。1DE 的 搜索 功能 可 以 把 用 到 某 个 标识 符 的 那些 代码 全 都 
找 出 来 ， 而 编辑 器 的 搜索 功能 则 显得 更 为 丰富 ， 因 为 它 可 以 用 更 加 灵活 的 方式 进行 搜索 ， 而 且 可 以 把 出 现在 注释 中 的 文字 也 纳入 
搜索 沁 围 。 要 想 更 加 灵活 地 搜索 ， 有 一 种 办 法 是 搜索 词根 而 不 搜索 原 记 。 比 如 ， 如 果 要 寻找 与 排序 问题 有 关 的 代码 ， 那 么 应 该 搜 
索 “order” 而 非 “ordering”， 因 为 在 搜索 order 的 同时 ， 还 可 以 找到 orders 和 ordering 等 源 自 相 同 词根 的 词语 。 此 外 ， 还 可 
以 用 正则 表达 式 来 吉 括 上 自己 所 关注 的 各 种 字符 串 ， 比 如 ， 如 果 待 调试 的 问题 涉及 x1、x2、y1 或 y2 这 四 个 坐标 字段 ， 那 么 可 以 通 
过 搜索 [xy][12] 来 查找 使 用 这 四 个 字段 的 代码 。 


在 其 他 一 些 情 况 下 ， 编 辑 器 可 以 帮 有 我 们 找 出 代码 为 什么 不 能 像 预 期 的 那样 运作 。 比 如 ， 下 面 这 段 Javascript 代 码 ， 无 法 显示 
出 本 来 应 该 展示 的 那 条 错误 消息 。 


var failureMessage = "Failure!", failureOccurrances = 5; 
// More code here 
if (failureOccurrences > 0) 


alert(fai lureMessage) ; 


上 面 这 段 代码 的 错误 其 实 是 很 明显 的 ， 但 是 对 于 忙碌 地 调试 了 一 整 天 了 人 来 说 ， 则 未 必 能 够 发 现 这 个 小 小 的 问题 。 不 过 ， 我 
们 只 需要 用 编辑 器 搜索 代码 里 面 的 “failureOccurrences”， 就 可 以 立刻 发 现 问 题 所 在 : 代码 里 面 本 来 应 该 有 两 个 地 方 使 用 该 变 


量 ， 但 是 却 只 能 找到 一 处 ， 因 为 另外 一 处 误 写 为 “failureOccurrances” 了 。 如 果 你 在 打 变 量 名 的 时 候 ， 不 是 从 当前 这 份 源 文件 
里 面 复制 ， 而 是 通过 其 他 手段 来 获取 ， 那 么 这 种 搜索 标识 符 的 技巧 ， 就 显得 尤为 有 用 了 ， 比 如 ， 你 可 能 是 从 对 该 变量 做 出 定义 的 
那 份 文件 ， 或 是 从 某 条 错误 消息 里 面 复 制 出 来 的 ， 也 有 可 能 自己 照 着 这 个 单词 ， 一 个 一 个 字母 打上 去 的 。 编 辑 器 能 够 把 文件 里 面 
出 现 同一 个 词 的 地 方 全 都 找 出 来 。 对 于 vim 编 辑 器 来 说 ， 可 以 把 光标 放 在 待 搜 索 的 标识 符 那 里 ， 然 后 按 下 * 键 向 前 搜索 ， 或 按 下 # 
键 癌 后 搜索 。Emacs 编 辑 器 使 用 Ctrl-s，Ctrl-w 来 实现 相同 的 功能 。 


如 果 想 在 调试 的 时 候 寻 找 两 份 文 件 中 的 不 同 点 (参见 第 5? 条) ， 那 么 编辑 器 是 个 很 有 用 的 工具 。 对 于 两 个 较为 复杂 的 语句 来 
说 ， 可 以 把 其 中 一 个 语句 粘贴 到 另外 一 个 的 正 下方 ， 这 样 就 可 以 通过 逐个 字符 的 比 对 来 迅速 判断 出 它们 是 否 相同 ， 而 不 用 在 屏幕 
上 面 来 回 地 看 了 。 如 果 要 对 比 的 是 两 块 比 较 长 的 代码 ， 那 么 可 以 把 编辑 器 窗口 分 成 左右 两 部 分 ， 并 且 把 其 中 一 份 代码 放 在 另 一 份 
代码 旁边 ， 这 样 就 可 以 看 出 二 者 之 间 的 重要 区 别 了 。 按 道理 来 说 ，diff 这 样 的 工具 应 该 更 适合 用 来 寻找 两 份 文件 之 间 的 区 别 ， 然 
而 麻烦 的 地 方 在 于 : 如 果 这 两 者 之 间 的 某 些 区 别 ， 体 现在 IP 地 址 、 时 间 截 或 传 给 例 程 的 参数 等 无 关 紧 要 的 元 素 上 面 ， 那 么 diff 所 
输出 的 结果 就 无 法 突出 重点 了 。 因 此 ， 在 进行 比较 之 前 ， 应 该 先 把 这 些 无 谓 的 因素 去 掉 。 比 如 ， 可 以 在 vim 中 采用 下 面 这 个 正则 
表达 式 把 日 志文 件 里 面 的 Chrome 版 本 号 替换 掉 ， 令 其 只 保留 主 版 本 号 ,例如 ，Chrome/45.0.2454.101 会 变 成 Chrome/45。 


-*S/\(Chrome\/[A.J*\) [A ]*/\1 


如 果 要 人 在 含有 大 量 数据 的 日 志文 件 里 面 寻找 错误 原因 ， 那 么 编辑 器 也 可 以 帮 上 上 大忙。 首先 ， 可 以 用 编辑 器 轻易 地 删 掉 那 些 与 
调试 无 天 的 内 容 。 比 如 ， 如 果 想 把 日 志文 件 中 含有 poll 一 词 的 文本 行 全 都 删 把 ， 那 么 只 需要 在 vi 里 面 输入 : g/polyd 就 可 以 了 ， 
如 果 使 用 的 是 Emacs 编辑 器 ， 那 就 先 按 下 M -Xx， 然 后 执行 delete-matching-lines。 这 些 命令 可 以 反复 执行 ， 直 到 日 志文 件 里 面 
只 剩 下 那些 你 所 关注 的 内 容 (如 果 执 行 得 过 头 了 ， 可 以 通过 “撤销 ” (undo) 命令 来 复原 ) 。 如 果 删 除 完 之 后 ， 日 志文 件 的 内 
容 读 起 来 还 是 太 过 复杂 ， 那 么 可 以 在 你 所 能 够 理解 的 地 方 加 上 “start of transaction” (事务 开始 ) 、 “transaction 
failed” (事务 失败 ) UR “retry” (Bit) 之 类 的 注释 。 如 果 你 要 浏览 包含 逻辑 结构 块 的 大 型 文件 ， 那 么 还 可 以 通过 编辑 器 的 
大 纲 (outlining， 概 要 查看 ) 功能 ， 迅 速 地 展开 或 折 羡 这 些 结构 ， 并 在 各 结构 之 间 快 速 浏览 。 此 时 ， 你 可 以 把 编辑 器 窗口 分 成 
许多 区 域 ， 以 便 同 时 查看 彼此 相关 的 多 个 部 分 。 


BR 
+ 使 用 编辑 器 的 搜索 功能 来 寻找 拼写 有 误 的 标识 符 。 
“ 对 文本 文件 进行 编辑 ， 以 突出 其 中 的 不 同 点 。 


` 对 日 志文 件 进行 编辑 ， 令 其 更 加 易 读 。 


第 26 条 : 用 版 本 控制 系统 寻找 bug 友 生 的 原因 及 经 过 


我 们 所 遇 到 的 很 多 bug， 都 与 软件 的 改动 有 天 。 在 添加 了 新 的 特性 并 做 出 了 新 的 修正 之 后 ， 软 件 里 面 难免 会 有 新 的 bug 出 
现 。Git、Mercurial、Subversion 或 CVS 这 样 的 修订 控制 系统 ， 可 以 使 我 们 详细 查看 软件 的 修改 记录 ， 并 从 中 获取 与 当前 问题 有 
天 的 重要 线 系 。 为 了 友 挥 这 一 优势 ， 我 们 必须 把 目 己 对 软件 所 做 的 修改 ， 用 心地 记录 到 版 本 控制 系统 中 (参见 第 10 条 ) 。 所 请 
用 心 ， 是 指 每 一 次 修改 都 应 该 单独 提交 ， 而 且 要 写 上 有 意义 的 提交 消息 ， 如 果 有 可 能 ， 还 应 该 链接 到 对 应 的 事务 上 面 (参见 第 1 


R) 。 


现在 给 出 一 些 范 例 ， 以 演示 怎样 通过 版 本 控制 系统 来 辅助 我 们 的 调试 工作 。 这 些 学 例 是 用 Git 的 命令 行 操作 来 撰写 的 ， 因 为 


这 种 方式 适用 于 各 种 环境 。 如 果 你 喜欢 用 GUI 工具 来 执行 这 些 操作 ， 那 么 完全 可 以 继续 使 用 那个 工具 。 如 果 你 使 用 的 是 另外 一 种 
版 本 控制 系统 ， 那 么 请 查阅 其 文档 ， 看 看 怎样 执行 对 应 的 操作 ， 或 者 也 可 以 考虑 改 用 Git， 因 为 它 提 供 了 很 多 强大 的 功能 。 请 注 
意 ， 并 非 每 一 种 版 本 控制 系统 都 是 “ 生 而 平等 ”的 ， 有 一 些 系 统 对 本 地 的 分 文 及 合并 操作 文 持 得 很 糟糕 ， 而 这 两 种 操作 对 调试 工 
作 来 况 ， 却 又 是 相当 重要 的 ， 因 为 我 们 经 常 要 尝试 好 几 种 不 同 的 实现 万 法 。 


当 我 们 友 现 新 bug 的 时 候 ， 首 先 应 该 查看 软件 所 经 历 的 变化 。 


git log 


如 果 你 知道 该 问题 与 某 个 具体 的 文件 有 关 ， 那 就 在 命令 里 面 指定 这 个 文件 ， 只 查看 涉及 该 文件 的 变化 。 


git log path/to/myfile.js 


如 果 你 怀疑 问题 与 某 几 行 特定 的 代码 有 天， 那么 可 以 获取 一 份 写 有 注解 的 代码 清单 ， 其 中 的 每 行 代 码 和 旁边 ， 都 会 标 有 与 上 次 
修改 有 关 的 细 市 。 


git blame path/to/myfile.js 

(可 以 指定 -C 及 -M 选 项 ， 以 展示 文件 内 部 及 文件 之 间 的 代码 行 移动 情况 。 ) 

如 果 与 问题 有 关 的 代码 已 经 不 在 当前 这 个 版 本 里 面 了 ， 那 么 可 以 在 过 去 的 版 本 中 搜寻 指定 的 字符 串 。 

git rev-list --all | xargs git grep extinctMethodName 

如 果 我 们 知道 问题 是 从 某 一 个 版 本 之 后 才 开始 发生 的 (如 V1.2.3) ， 那 么 可 以 只 看 友 生 在 该 版 本 之 后 的 变化 。 


git log V1.2.3.. 


如 果 不 知 道 版 本 号 ， 但 是 知道 出 现 问题 的 日 期 ， 那 么 可 以 获取 在 该 日 之 前 最 后 一 次 提交 所 对 应 的 SHA hash, 

git rev-list -n 1 --before=2015-08-01 master 

然后 ， 可 以 把 这 个 SHA hash 放 在 本 来 应 该 传 入 版 本 号 的 地 方 。 

如 果 我 们 知道 问题 是 在 解决 了 某 个 事务 之 后 出 现 的 (如 第 1234 号 事务 ) ， 那 么 可 以 搜索 与 该 事务 有 关 的 提交 。 

git log --all --grep='Issue #1234' 

(我 们 在 进行 与 事务 有 关 的 提交 操作 时 ， 必 须 在 消息 里 面 以 “lssue#1234” 的 形式 标 出 这 个 事务 ， 才 能 使 刚才 的 那 条 命令 
见效 。) 


在 用 上 述 各 种 命名 来 追溯 代码 的 变化 情况 时 ， 只 要 你 知道 与 某 次 提交 相对 应 的 那个 SHA hash (如 1cb6e3f6) ， 那 么 就 可 以 
通过 指定 该 hash 来 展示 与 之 有 关 的 修改 。 


git show lcb6e3f6 
下 面 这 条 命令 可 以 显示 出 两 个 版 本 之 间 所 经 历 的 变化 。 


git diff Vlet«ds «Vis a2 


一 般 来 襄 ， 只 要 得 看 一 下 代码 的 变化 情况 ， 融 能 够 找到 问题 的 原因 了 。 我 们 也 可 以 根据 提交 信息 中 所 写 的 名 字 ， 找 到 与 某 次 
修改 有 天 的 开 上 友 者 ， 询 问 他 们 在 修改 代码 时 所 依循 的 思路 。 


版 本 控制 系统 还 可 以 当成 时 光 机 来 用 。 比 如 ， 可 以 把 原来 某 个 正确 的 版 本 (如 V1.1.0) 签 出 ， 将 其 代码 放 在 调试 器 中 运行 ， 
并 与 当前 的 版 本 相互 比 对 (参见 第 5 条 ) 。 


git checkout V1.1.0 
还 有 一 种 很 有 特点 的 用 法 。 如 果 你 知道 bug 是 由 某 两 个 版 本 之 间 (如 V1.1.0 和 V1.2.3 之 间 ) 的 某 个 版 本 所 引入 的 ， 而 且 有 一 


个 能 够 在 测试 失败 时 返回 非 0 值 的 脚本 (如 test.sh) ， 那 么 就 可 以 用 Git 对 这 个 范围 内 的 所 有 版 本 进行 二 分 查找 ， 以 确定 引入 bug 
的 那个 版 本 。 


git bisect start V1.1.0 V1.2.3 
git bisect run test.sh 
git reset 


我 们 可 以 用 Git 创 建 本 地 分 支 ， 并 在 上 面 进行 实验 ， 以 求 修复 某 个 问题 。 如 果 修好 了 ， 那 就 将 该 分 支 与 master 合 并 ， 若 是 修 
不 好 ， 则 将 其 删除 。 


# If the experiment was successful integrate the branch 
git checkout master 
git merge issue-work-1234 


# If the experiment failed delete the branch 
git checkout master 
git checkout -D issue-work-1234 


如 果 你 正在 做 某 件 事 ， 公 司 突然 叫 你 去 解决 另外 一 个 事务 ， 那 么 可 以 把 当前 的 变更 先 隐 藏 起 来 ， 等 到 处 理 完 客户 的 那个 问题 
之 后 ， 再 将 其 恢复 。 
git stash save interrupted-to-work-on-V1234 


# Work on the debugging issue 
git stash pop 


Br 
- 用 版 本 控制 系统 来 查看 文件 的 修订 记录 ， 以 确定 bug 是 在 什么 时 候 、 以 何 种 方式 引入 的 。 


- 用 版 本 控制 系统 来 查看 正常 运行 的 版 本 与 出 现 故 障 的 版 本 之 间 有 何 区 别 。 


第 27 条 : 用 工具 监测 由 多 个 独立 程序 所 构成 的 系统 


如 果 软 件 系统 里 面 只 有 一 个 程序 ， 那 么 软件 出 错 的 时 候 ， 只 需要 调试 这 个 程序 束 可 以 了 ， 然 而 当前 很 少 有 哪个 基于 软件 的 系 
统 ， 是 仪 由 一 个 程序 所 构成 的 ， 它 们 几乎 都 包含 着 各 种 各 样 的 服务 、 组 件 及 程序 库 。 因 此 ， 我 们 应 该 迅速 而 高 效 地 找到 友 生 故障 


的 那个 元 素 ， 以 便 在 调试 此 类 系统 的 时 候 占 得 先 机 。 要 想 做 到 这 一 点 ， 只 需要 在 服务 器 端 使 用 或 者 配置 一 套 基础 设施 监测 系统 ， 
并 将 其 运行 起 来 束 可 以 了 。 


下 面 我 们 将 以 流行 的 Nagios 工 具 为 例 来 进行 讲解 。 该 工具 可 以 作为 自由 软件 来 使 用 ， 也 可 以 当 作 一 款 商 业 软 件 来 购买 ， 厂 
家 会 给 购买 者 提供 产品 与 服务 支持 。 如 果 你 的 公司 使 用 的 是 另外 一 套 监测 系统 ， 那 么 也 可 以 继续 使 用 那 套 系统 ， 因 为 原理 都 是 相 
同 的 。 无 论 选 用 哪 种 产品 ， 都 不 要 急 着 去 自己 构建 这 样 的 监测 系统 。 与 自己 快速 打造 出 来 的 系统 或 是 像 collectd 和 RRDtool 这 样 
的 被 动 记录 系统 (passive recording system) 相 比 ，Nagios 有 很 多 优势 ， 例 如 ， 具 有 经 过 测试 的 服务 检查 程序 及 通知 程序 
(被 动 与 主动 的 都 有 ) 、 管 理 面板 、 轮 询 事件 数据 库 、 非 侵入 式 的 监测 计划 安排 功能 、 可 扩展 性 以 及 庞大 的 用 户 社 群 (他 们 会 给 
Nagios 开 上 妈 插件 ) 。 


如 果 你 开 友 的 软件 要 运行 在 云端 主机 上 面 ， 或 是 要 基于 某 种 常见 的 应 用 程序 栈 ， 那 么 厂商 或 许 会 以 服务 的 形式 ， 提 供 一 套 基 
于 云端 的 监控 系统 给 你 使 用 。 例 如 ，Amazon Web Services (AWS) 束 提 供 了 监测 机 制 ， 可 以 对 其 所 提供 的 服务 进行 监控 。 


为 了 能 够 有 效 地 探查 上 问题， 我 们 必须 对 应 用 程序 进行 全 方位 的 监测 。 首 先 从 最 底层 的 资源 开始 ， 也 就是 要 监测 每 一 台 主 机 的 
健康 状况 ， 其 中 包括 : CPU 的 负载 、 内 存 的 用 量 、 网 络 是 否 可 达 、 正 在 执行 的 进程 数量 、 已 经 登录 的 用 户 数量 、 可 以 更 新 的 软 
件 、 剩 余 的 磁盘 空间 、 已 经 打开 的 文件 描述 街 、 已 经 鼎 用 的 网 络 市 铭 与 磁盘 市 寓 、 系 统 日 志 、 安 全 性 以 及 远程 访问 。 然 后 我 们 器 
上 走 一 层 ， 看 看 软件 所 需 的 那些 服务 ， 能 不 能 够 正确 而 可 靠 地 运行 。 需 要 监测 的 地 方 有 : 数据 库 、 电 子 邮件 服务 器 、 应 用 程序 服 
务 器 、 缓 存 、 网 络 连 接 、 和 备份、 队列、 消息 传递 、 软 件 授权 、Web 服 务 器 以 及 目录 。 最 后 ， 要 对 应 用 程序 的 健康 状况 进行 详细 
师 测 。 具 体 的 细节 可 能 会 有 所 不 同 ， 然 而 下 面 几 点 最 好 能 够 监测 到 |: 


- 应 用 程序 能 否 正 确 地 处 理 整 个 流程 (例如 ， 从 填写 Web 表 单 到 完成 交易 的 全 过 程 ) 。 
: 应 用 程序 中 的 各 个 部 分 是 否 正 常 ， 例 如 ，Web 服 务 、 数 据 库 表格 、 静 态 网 页 、 交 互 式 Web 表 单 以 及 报告 机 制 。 


. 菜 些 关键 指标 是 否 正 常 ， 例 如 ， 响 应 延迟 、 已 经 加 入 队列 和 已 经 完成 的 订单 、 活 跃 的 用 户 数量 、 失 败 的 交易 、 发 生 的 错误 
以 及 得 到 报告 的 程序 故障 等 。 


软件 友 生 故障 时 ，Nagios 会 在 其 Web 界 面 中 更 新 相 天 服务 的 状态 。 通 过 图 3.1， 可 以 看 到 运行 在 各 种 主机 上 面 的 各 项 服务 都 
处 在 何 种 状态 。 黄 色 表 示 和 警告， 红色 表示 错误 。 此 外 ， 我 们 还 可 以 选择 在 软件 帮 生 故障 时 ， 立 刻 收 到 短信 或 电子 邮件 通知 。 对 于 
偶 友 的 故障 来 说 ， 这 种 通知 可 以 令 我 们 对 出 现 故 障 的 服务 进行 及 时 的 调试 ， 从 而 更 快 地 找到 问题 的 原因 。 我 们 也 可 以 对 Nagios 
进行 设置 ， 令 其 开启 一 张 工 单 ， 使 得 我 们 能 够 对 事务 进行 指派 、 追 路 及 归档 (参见 第 1 条 ) 。Nagios 还 可 以 把 事件 与 服务 之 间 随 
者 时 间 的 推移 所 表现 出 来 的 天 系 ， 绘 制 成 直方 图 。 仔 细 观 察 故 障 的 友 生 时 间 ， 可 以 帮助 我 们 看 出 与 故障 有 关 的 其 他 一 些 因 素 ， 如 
CPU 负 载 过 高 或 内 存 压 力 过 大 等 。 如 果 我 们 是 对 服务 所 在 的 整个 体系 进行 监测 ， 那 么 束 有 可 能 友 现 : 某 些 底层 的 错误 会 产生 连 
锁 反 应 ， 从 而 导致 其 他 一 系列 问题 。 在 这 种 情况 下 ， 我 们 通常 应 该 首先 查 清 引 友 错 误 的 那个 底层 元 素 (参见 第 4 条 ) 。 


如 果 Nagios 提 供 的 通知 方式 不 符合 你 的 需要 ， 那 么 可 以 自己 编写 通知 处 理 程 序 。 程 序 清单 3.1 中 的 shell 脚 本 使 用 了 由 
Stephen Celis 所 编写 的 ghi 工 具 ， 它 使 得 Nagios 能 够 在 服务 发 生 故 障 时 ， 向 GitHub 提 交 一 项 事务 。 


程序 清单 3.1 Nagios 插件 范例 


#!/bin/sh 
TITLE="$1" 


BODY=" $2" 


# Unescape newlines 


NLBODY="$(printf '%b' \"$BODY\")" 
"STITLE 


ghi open 
$NLBODY 


" >/dev/nul | 
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图 3.1 用 Nagios 监 测 服 务 的 详细 状态 


Nagios 设 置 起 来 很 简单 。 大 多 数 流行 的 操作 系统 都 提供 了 安装 包 ， 这 种 安装 包 内 置 了 对 天 键 的 主机 资源 及 常见 的 网 络 服务 
进行 监控 的 功能 。 此 外 ， 还 有 一 干 多 种 插件 ， 可 以 用 来 监测 云端 、 集 群 、CMS、 安 全 以 及 Web 表 单 等 各 种 各 样 的 服务 。 如 果 这 
些 插 件 不 能 够 满足 你 的 需求 ， 那 么 可 以 用 脚本 来 编写 自己 的 检查 程序 。 这 样 的 脚本 应 该 把 服务 的 状态 打印 出 来 ， 并 在 退出 的 时 候 
返回 0 或 2， 以 表明 该 服务 是 正常 运行 ， 还 是 出 现 了 严重 错误 。 下 面 这 段 shell 脚 本 用 来 验证 指定 的 存储 卷 (storage volume) 是 

经 备份 为 囊 有 时 间 戳 的 AWS 快 照 。 


#!/bin/sh 


HOST="$1" 
NAME="$2" 
TODAY=$(date -I) 


LAST_BACKUP=$ C(ec2-describe-snapshots --filter \ 
tag: Name="backup-$HOST-$NAME" \ 
--filter tag-key=date | 


awk ' 
$1 == "SNAPSHOT" {status = $4} 
$1 == "TAG" && $4 == "date" { 
if (status == "completed" & $5 > latest) latest = $5 
} 
END {print latest}') 
if [ "$LAST_ BACKUP" = "$TODAY" | 
then 
echo "BACKUP $HOST $NAME OK: $TODAY" 
exit 0 
else 
echo "BACKUP $HOST $NAME CRITICAL: last $LAST_BACKUP" 
exit 2 
fi 


BR BARBI IE WM HUF), AEE RRR IRA PERT, 2 AREE R AE 
: 使 自己 能 够 在 服务 发 生 故 障 时 迅速 得 到 通知 ， 以 便 在 该 状态 下 调试 系统 。 


` 查阅 故障 记录 ， 并 试 着 从 中 发 现 一 些 规律 ， 这 样 或 许 能 够 帮助 你 找到 问题 的 原因 。 


第 4 章 AARNE 


调试 器 是 一 种 专门 的 工具 ， 用 来 详细 检视 软件 在 运行 时 的 行为 ， 它 或 许 是 最 为 任性 的 一 类 软件 ， 因 为 没有 别 的 软件 可 以 像 它 
这 样 ， 仪 仅 因为 自身 的 用 法 ， 束 要 求 CPU 与 操作 系统 都 为 其 提供 特殊 的 支持 。 由 此 可 知 ， 专 业 人 士 对 它 是 十 分 重视 的 ， 并 且 会 
投入 精力 来 做 好 这 类 软件 。 如 果 我 们 不 能 学 会 有 效 地 使 用 调试 器 ， 那 融 无 法 友 挥 它 的 优势 。 由 于 每 个 人 所 使 用 的 编程 语言 和 开 上 友 
环境 各 有 不 同 ， 因 此 本 章 所 讲 的 一 些 技巧 对 你 来 说 ， 可 能 已 经 不 再 新 鲜 了 。 如 果 是 这 样 ， 那 么 把 这 些 技 巧 浏 哆 一 声 束 可 以 了 ; A 


则 ， 残 请 仔细 阅读 这 些 内 容 。 


有 很 多 独立 的 调试 器 可 供 我 们 选用 ， 而 且 许多 集成 开 友 环境 (IDE) 也 都 支持 调试 功能 ， 使 用 这 些 工具 来 调试 软件 时 所 遵循 
的 方法 与 技巧 ， 大 致 是 相同 的 。 本 章 选 用 三 种 流行 的 调试 环境 来 演示 怎样 对 编译 好 的 代码 进行 调 试 ， 这 三 种 环境 是 : 调试 java 与 


Scala 代 码 的 Eclipse IDE, 调试 C、C++、Visual C# 及 Visual Basic 等 语言 的 Visual Studio IDE， 以 及 在 Unix 系 统 下 调试 C、 
C++, D, Go, Objective-C, Fortran, Java, OpenCL C、Pascal、 汇 编 、Modula-2 及 Ada 等 语言 的 gdb。 如 果 你 使 用 的 是 
其 他 工具 ， 如 是 用 来 调试 JavaScript 代 码 的 Google Chrome 浏 览 器 ， 那 么 请 查阅 资料 ， 看 看 怎样 在 那些 工具 里 面 运用 本 章 所 说 
的 这 些 扩 巧 。 如 果菜 个 工具 不 文 持 你 想 要 使 用 的 功能 ， 那 么 可 以 考虑 改 用 其 他 工具 。 


第 28 条 : 编译 代码 时 把 符号 信息 包含 进来 ， 以 便于 册 试 


尽管 调试 器 可 以 用 来 调试 任何 一 款 编译 好 的 程序 ， 但 是 如 果 想 完全 友 挥 出 它 的 优势 ， 那 么 最 好 调试 那 种 含有 调试 信息 程序 。 
这 些 信 息 可 以 把 机 器 指令 与 源 代码 对 应 起 来 ， 并 且 可 以 把 内 存 地 址 与 变量 对 应 起 来 。 对 于 C、C+ + 及 Go 等 编译 成 硬件 机 器 指令 
的 语言 来 说 ， 应 用 程序 只 需要 包含 极 少 量 的 信息 就 可 以 运行 ， 这 些 信息 用 来 指出 该 程序 在 运行 的 时 候 ， 需 要 和 哪些 程序 库 相 链 
接 ， 这 样 的 程序 库 ， 在 Unix 系 统 中 叫做 共享 库 ， 在 Windows 系 统 中 称 为 动态 链接 库 (dynamically linked library, DLL) 。 可 
是 这 样 一 来 ， 融 意味 着 调试 器 只 能 识别 出 程序 所 使 用 的 少数 几 个 例 程 。 下 面 来 看 一 个 例子 ， 这 是 一 款 C++ 程 序 企 等 待 输入 时 的 
调用 栈 (参见 第 32 条 ) 。 


#0 Oxb77c0424 in __kernel_vsyscall () 

#1 Oxb75e7663 in read () from /11b/1386-1inux-gnu/1686/cmov/ 
libc.so.6 

#2 Oxb758bb3b in _IO_file_underflow () 
from /11b/1386-1inux-gnu/1686/cmov/libc.so.6 

#3 Oxb758d3db in _IO_default_uflow © 
from /11b/1386-1inux-gnu/i686/cmov/libc.so.6 

#4 Oxb758e808 in __uflow () from /11b/1386-1inux-gnu/i686/ 
cmov/libc.so.6 

#5 Oxb75840ec in getc () from /11b/1386-1inux-gnu/1686/cmov/ 
libc.so.6 

#6 Oxb7750345 in __gnu_cxx::stdio_sync_filebuf<char, std:: 
char_traits<char> >::uflow() © from /usr/11b/1386- linux 
-gnu/libstdc++.so.6 

#7 0xb7737365 in ?? () from /usr/1ib/1386-1inux-gnu/ 
libstdc++.s0.6 

#8 Oxb77386a4 in std::istream::get(char&) © 
from /usr/11b/1386-1inux-gnu/libstdc++.so0.6 

#9 0x0805083d in ?? () 

#10 0x0804F730 in ?? () 

#11 0x0804b792 in ?? () 

#12 0x08049b13 in ?? () 

#13 Ox08049caf in ?? () 

#14 0xb7535e46 in __libc_start_main () 
from /11b/1386-1inux-gnu/1686/cmov/1libc.so.6 

#15 0x08049a01 in ?? () 


能 够 显示 出 名 称 的 例 程 (如 get 和 read) ， 是 那些 位 于 共享 库 中 的 例 程 ， 这 个 C++ 程 序 必须 与 相应 的 共享 库 相 链接 ， 才 能 够 
正常 地 运行 。 (其 名 称 以 下 划 线 开头 的 例 程 ， 是 内 部 例 程 ， 它 们 也 需要 进行 动态 链接 。) 如 果 某 个 例 程 的 名 称 显示 为 问号 
(??) ， 那 说 明 调 试 器 无 法 将 其 与 源 代码 对 应 起 来 。 


在 Unix 系 统 中 编译 程序 时 ， 默 认 会 把 那些 将 在 链接 阶段 得 以 解析 的 变量 名 称 与 例 程 名 称 〈 称 为 非 静 态 符 号 ) 包含 进来 。 这 
些 内 容 通 单 可 以 用 名 为 strip 的 命令 来 移 除 ， 以 便 节 省 空间 或 掩 兰 专属 信息 。 如 果 程 序 里 面 的 这 些 内 容 没有 遭 到 有 剥离， 那么 可 以 
给 我 们 提供 更 多 的 捐 示 。 下 面 我 们 来 看 看 同样 一 个 程序 ， 在 这 些 内 容 未 遭 移 除 的 情况 下 ， 会 具备 号 样 的 调用 枝 。 


#8 Oxb769e6a4 in std::istream::get(char&) © 
from /usr/11b/1386-1inux-gnu/libstdc++.so0.6 

#9 0x0805083d in CMetricsCalculator::calculate_metrics_ 
switch() © 

#10 0x0804fF730 in CMetricsCalculator::calculate_metrics_ 
loop O 

#11 0x0804b792 in CMetricsCalculator::calculate_metrics() () 

#12 0x08049b13 in process_metrics(char const*) (© 

#13 Ox08049caf in main () 


我 们 可 以 看 到 ， 刚 才 显 示 为 问号 的 地 方 ， 现 在 已 经 有 具体 的 阔 数 名 了 。file 合 令 能 够 指出 Unix 程 序 的 符号 信息 是 否 已 经 移 
除 。 把 符号 信息 已 经 移 除 和 尚未 移 除 的 两 个 程序 传 给 该 命令 ， 会 分 别 产 生 下 列 输 出 。 


/bin/bash: ELF 64-bit LSB executable, x86-64, version 1 (SYSV), 
dynamically linked, interpreter /11b64/1d-linux-x86-64.so0.2, 
for GNU/Linux 2.6.35, stripped 


nethogs: ELF 64-bit LSB executable, x86-64, version 1 (SYSV), 
dynamically linked, interpreter /11b64/1d-1linux-x86-64.so0.2, 
for GNU/Linux 2.6.18, not stripped 


无 论 在 哪个 操作 系统 里 面 做 开发 ， 都 可 以 给 编译 器 和 链接 器 设置 一 些 选项 ， 令 其 把 更 多 的 调试 信息 包含 在 编译 好 的 程序 中 ， 
这 些 信息 包括 指令 的 内 存 地 址 所 对 应 的 文件 名 与 代码 行 的 编号 ， 以 及 各 种 变量 的 位 置 。 如 果 我 们 在 编译 刚才 那个 C++ 程 序 的 时 
候 ， 把 这 些 信息 也 包 仿 进来， 那么 其 调用 栈 束 会 变 成 下 面 这 个 样子 : 


#9 Ox0804f054 in CharSource::get (this=0xbfa0876c, 
c=@Oxbfa08637: 8 '\b') at CharSource.h:32 

#10 Ox0804fa4d in CMetricsCalculator::calculate_metrics_switch 
(this=Oxbfa0876c) at CMetricsCalculator.cpp:160 

#11 0x0804eea5 in CMetricsCalculator::calculate_metrics_loop 
Cthis=Oxbfa0876c) at CMetricsCalculator.cpp: 868 

#12 0x0804b4b2 in CMetricsCalculator::calculate_metrics 
(this=Oxbfa0876c) at CMetricsCalculator.h:74 

#13 0x08049833 in process_metrics (f1lename=0x8054dd8 "-") 
at qmcalc.cpp:39 


#14 0x080499cf in main (argc=1, argv=Oxbfa08b94) 
at qmcalc.cpp:72 


现在 可 以 看 到 每 一 次 方法 调用 所 对 应 的 文件 名 及 行 号 ， 而 且 还 能 看 到 参数 的 名 称 与 值 。 这 些 数 据 正 是 我 们 在 调试 的 时 候 需 要 
用 到 的 。 不 过 要 注意 ， 在 把 程序 友 布 给 客户 的 时 候 ， 可 能 要 删 挥 这 些 数据 ， 以 免 泄 漏 公司 的 专 有 信息 。 


在 程序 中 座 入 调试 信息 的 具体 办 法 ， 要 根据 你 所 使 用 的 工具 而 定 。 下 面 以 几 种 单 见 工具 为 例 来 说 明 与 之 相应 的 办 法 。 


- 用 Eclipse 来 开发 Java 程 序 的 时 候 ， 它 默认 就 会 生成 调试 符号 。 你 也 可 以 通过 Ptoject-Propetties-Java Compiler-Classfile 来 调整 。 
- Oracle JDK 的 编译 器 提供 了 -g 选 项 ， 可 以 把 所 有 调试 信息 都 浴 入 程序 中 (该 选项 还 有 几 个 参数 可 以 调整 ) 。 

. 大 多 数 Unix 编 译 器 都 采用 -8 选项 来 湾 入 调试 信息 。 

- Microsoft 的 编译 器 采用 /Zi 选项 来 府 入 调试 信息 。 


- 用 Mictosoft 的 Visual Studio 做 开发 时 ， 可 以 通过 Build-Configuration manager-Active solution configutation 来 选择 自己 是 要 构建 
调试 版 的 程序 ， 还 是 要 构建 发 行 版 的 程序 。 (工具 栏 上 也 有 与 之 对 应 的 选项 。) 


如 果 程 序 是 用 来 调试 的 ， 那 么 还 应 该 注意 在 构建 该 程序 时 所 及 用 的 优化 级 别 。 当 前 有 很 多 编译 器 都 会 进行 大 量 的 优化 ， 这 些 
优化 会 大 幅 收 改 生成 后 的 代码 ， 令 你 无 法 理解 它们 与 自己 所 写 的 源 代码 之 间 的 对 应 关系 。 如 果 你 对 这 样 的 程序 进行 单 步调 试 ( 参 
见 第 29 条 ) ， 那 么 调试 器 可 能 会 表现 得 较为 错乱 、 可 能 会 跳 过 某 些 语句 ， 也 有 可 能 会 按照 另外 一 种 你 意 想 不 到 的 顺序 来 执行 。 
为 了 演示 该 问题 ， 我 们 来 看 下 面 这 个 C 语 言 程序 。 


#include <stdio.h> 
int main() 


{ 

Int @, D: Gy Qr T 

a m 12: 

b = 3; 

c=a/)D; 

d = 0: 

for (1 = 0; 1 < 10; 1++) 

d += C; 

printf("result=%d\n", d); 

} 


如 果 用 Microsoft 的 C 语 言 编译 器 进行 编译 ， 并 且 把 优化 级 别 调 到 最 大 ， 那 么 融会 生成 下 列 代码 : 


$SG2799 DB 'result=%d', OaH, OOH 
_main PROC 

push 40 

push OFFSET $SG2799 

call _printf 


add esp, 8 
xor eax, eax 
ret 0 

_main ENDP 


它 所 生成 的 这 段 代 码 ， 只 会 把 变量 d 的 最 终结 果 (也 殊 是 40) 推 到 栈 中 ， 并 调用 printf 将 其 显示 出 来 。 这 样 做 是 正确 的 ， 这 
段 代 码 并 没有 执行 那些 赋值 、 计 算 和 循环 等 语句 ， 因 为 编译 器 在 编译 的 时 候 ， 束 已 经 把 这 些 计算 做 好 了 ， 于 是 在 生成 的 代码 里 
面 ， 只 需 把 预先 算 好 的 结果 显示 出 来 即 可 。 然 而 ， 对 于 正在 调试 复杂 算法 的 人 来 名 ， 他 是 不 希望 看 到 某 些 代码 束 这 样 消失 的 。 


因此 ， 如 果 是 为 了 调试 而 构建 程序 ， 那 么 请 禁用 编译 器 的 优化 功能 。 使 用 IDE 做 开发 的 时 候 ， 只 需要 在 debug 版 本 与 release 


版 本 之 间 切 换 就 可 以 了 ，1DE 会 自动 把 优化 选项 控制 好 。Oracle 的 Java 编 译 器 ， 不 会 做 出 优化 ， 而 是 会 把 优化 过 程 留 给 即时 
(just-in-time, JIT) 编译 器 来 做 ， 后 者 是 在 运行 Java 程 序 的 时 候 执行 的 ， 它 会 把 JVM 代 码 转 换 成 机 器 码 。 从 命令 行 界 面 编 译 代 
码 时 ， 需 要 通过 命令 选项 来 禁用 编译 器 的 优化 功能 ，Unix 系 统 上 面 的 选项 是 -O00，Microsoft 编 译 工具 的 选项 是 /Od。 请 注意 , 
即便 关 挥 优化 功能 ， 编 译 器 也 依然 有 可 能 会 对 程序 做 出 修改 例如， 可 能 会 移 除 那些 永远 执行 不 到 的 代码 (dead code) ， 并 且 
会 对 弟 量 表达 式 提 前 进行 求 值 等 。 构 建 debug 版 的 程序 时 ， 通 弟 应 该 天 挥 优化 功能 ， 但 是 构建 release 版 的 程序 时 ， 则 不 应 该 天 
挥 这 尝 功能 ， 因 为 这 会 令 生成 出 来 的 代码 执行 得 很 慢 。 有 些 公 司 为 了 使 产品 调试 起 来 更 容易 ， 会 在 生成 release 版 的 程序 时 ， 也 
把 优化 功能 关 挥 ， 这 样 还 可 以 防止 编译 器 做 出 不 成 熟 或 不 正确 的 优化 。 还 有 一 些 公司 为 了 便于 调试 ， 甚 到 会 把 调试 符号 也 放 到 代 
码 里 面 ， 然 而 这 样 做 有 一 个 风险 ， 束 是 会 使 得 别人 更 容易 对 其 产品 进行 逆向 工程 。 


在 调试 的 时 候 ， 有 两 种 情况 是 不 应 该 关闭 优化 功能 的 。 第 一 种 情况 是 ， 程 序 中 的 某 一 部 分 代码 对 性 能 要 求 很 高 ， 而 且 要 调试 
的 bug 并 不 在 这 一 部 分 代码 里 面 ， 因 此 ， 我 们 想 令 编译 器 对 这 一 部 分 代码 进行 优化 。 在 这 种 情况 下 ， 我 们 应 该 要 根据 目 己 的 构建 
需求 ， 对 编译 器 的 优化 选项 进行 调整 ， 好 在 很 多 编译 器 都 容许 经 过 优化 的 代码 与 未 经 优化 的 代码 共存 。 第 二 种 情况 是 ， 我 们 过 到 
了 只 会 在 release 版 本 里 面 出 现 的 bug， 这 种 bug 在 debug 版 的 程序 里 面 看 不 到 。 在 这 种 情况 下 ， 我 们 需要 对 构建 程序 所 用 的 选 
项 进行 调整 ， 使 得 编译 器 既 要 像 构建 release 版 本 时 那样 ， 对 程序 进行 优化 ， 又 要 保留 调试 所 需 的 信息 。 


| 
+ 对 构建 程序 所 用 的 配置 选项 进行 调整 ， 使 得 调试 信息 的 详细 程度 与 你 的 需要 相符 。 


+ 禁用 编译 器 的 代码 优化 功能 ， 以 便 使 生成 出 来 的 代码 能 够 与 你 所 要 调试 的 代码 相对 应 。 


第 29 条 : 对 代码 进行 里 步调 试 


想 要 对 程序 的 详细 执行 情况 进行 实时 追 吕 ， 是 不 可 能 的 ， 因 为 计算 机 每 秒 钟 要 处 理 数 十 亿 条 指令 。 不 过 ， 我 们 可 以 用 调试 器 
的 单 步 执行 功能 来 运行 程序 ， 这 样 束 可 以 一 次 只 执行 一 条 语句 或 一 个 机 器 指令 了 。 人 在 单 步调 试 的 过 程 中 ， 程 序 会 依次 执行 相关 的 
由 令 ， 从 而 使 我 们 能 够 找到 问题 的 原因 。 比 如 ， 我 们 会 友 现 某 个 条 件 判断 语句 选择 了 错误 的 分 支 ， 或 是 某 个 循环 的 执行 次 数 多 于 
或 少 于 预期 的 次 数 等 。 在 本 章 的 其 他 条 目 中 ， 我 们 还 可 以 看 到 : 单 步调 试 机 制 ， 能 够 把 程序 在 执行 每 行 代码 之 前 和 之 后 的 详细 状 


哑 样 开始 进行 单 步调 试 ， 取 决 于 你 所 使 用 的 工具 。 用 Eclipse 做 开 友 的 时 候 ， 可 以 通过 Window-Open Perspective-Debug 
菜单 打开 debug perspective， 然 后 通过 Run-Debug 菜 单 或 F6 键 来 运行 程序 ， 然 后 ， 融 可 以 通过 F5 键 来 单 步 执行 每 一 行 语句 
了 。 用 Visual Studio 做 开发 的 时 候 ， 可 以 通过 Debug-Step Into 或 F11 键 来 进行 调试 。 在 Unix 命 令 行 界面 中 ， 可 以 把 程序 的 可 执 
行文 件 作为 参数 传 给 gdb (如 gdb path/to/myprog) ， 然 后 在 程序 的 入 口 处 设置 断 点 ， 比 如 ， 可 以 通过 break main 命 令 来 在 
main 那 里 设置 断 点 (参见 第 30 条 ) 。 接 下 来 ， 就 可 以 通过 step 命 令 进行 单 步调 试 了 (其 后 也 可 以 按 下 Enter 键 ， 以 便 反 复 下 达 该 
命令 ) 。 请 注意 ， 有 很 多 面向 对 象 的 编程 语言 ， 在 进入 程序 的 main 方 法 之 前 ， 会 先 通 过 运行 静态 对 象 的 构造 器 来 执行 一 些 代 
位。 


调试 器 通常 会 进入 一 些 你 并 不 想 要 深入 调试 的 代码 中 。 比 如 ， 在 大 多 数 情况 下 ， 你 可 能 都 不 想 深入 查看 循环 中 每 一 个 例 程 的 
详细 执行 过 程 。 调 试 器 的 step over 命 令 (Eclipse: F6、Visual Studio: F10、gdb: next) ， 可 以 用 来 应 对 这 种 情况 。 调 试 算 
法 的 时 候 ， 我 们 会 用 step over 的 方式 ， 调 试 某 些 不 太 重 要 的 例 程 ， 并 且 用 step into 的 方式 来 深入 调试 那些 有 问题 的 例 程 。 如 果 
你 发 现 自己 不 小 心 进 入 了 某 个 例 程 ， 那 么 可 以 命令 调试 器 直接 运行 到 该 例 程 的 返回 点 (Eclipse: F7、Visual Studio: Shift- 


F11, gdb: finish) 。 


有 的 时 候 ， 我 们 在 已 经 走 过 了 某 个 例 程 之 后 ， 才 友 现 目 己 其 实 应 该 进入 那个 例 程 中 进行 调试 。 这 时 我 们 可 以 给 调用 该 例 程 的 
那 条 语句 加 上 断 点 ， 并 通过 程序 的 用 户 界 面 ， 把 有 问题 的 部 分 重新 执行 一 志 ， 或 是 把 整个 程序 重新 执行 一 忆 。 重 新 执行 程序 的 时 
候 ， 它 束 会 停 在 即将 调用 该 例 程 的 断 点 那里 ， 使 我 们 有 机 会 进入 其 中 进行 单 步调 试 。 这 样 的 过 程 ， 令 我 们 能 够 逐步 缩减 问题 的 排 
查 学 围 ， 也 惑 是 说 ， 我 们 忌 是 先 执行 程序 中 的 许多 代码 ， 直 到 磁 见 一 个 有 问题 的 例 程 ;， 然 后， 给 调用 该 例 程 的 那个 地 方 加 上 断 
点 ， 并 重新 执行 程序 ;这 一 次 ， 束 可 以 进入 那个 有 问题 的 例 程 了 ， 接 下 来 ， 重 复 刚 才 的 做 法 ， 直 至 找到 问题 。 此 外 ， 也 可 以 考虑 
使 用 调试 器 的 反 向 调试 功能 (参见 第 31 条 ) 。 


Br 
. 通过 单 步调 试 来 查看 语句 的 执行 顺序 及 程序 的 状态 。 
` 为 了 提升 调试 速度 ， 我 们 可 以 直接 经 过 某 些 与 bug 无 关 的 部 分 ， 而 不 用 进入 其 中 。 


. 如 果 发 现 程序 所 经 过 的 某 个 例 程 有 问题 ， 那 就 给 该 例 程 设置 断 点 ， 重 新 运行 程序 ， 并 进入 例 程 中 进行 单 步 调试 ， 以 求 缩小 
有 待 排查 的 范围 。 


第 30 条 : REST USE Atlee ra 


代码 断 点 可 以 令 我 们 在 调试 的 过 程 中 ， 详 细 控制 目 己 所 要 得 看 的 代码 。 我 们 通过 指定 源 代码 中 的 位 置 来 设置 断 点 ， 使 得 程序 
在 执行 到 这 里 之 后 就 停 下 来 ， 并 把 控制 权 交 给 调试 器 (Eclipse: Run-Toggle Breakpoint 或 Ctrl-Shift-B、Visual Studio: 
Debug-Toggle Breakpoint, gdb: break file-name: line-number) 。 除 了 通过 指定 源 代 码 中 的 位 置 来 设置 断 点 ， 我 们 还 可 
以 通过 例 程 的 名 称 来 设置 断 点 (Eclipse: Run-Toggle Method Breakpoint、Visual Studio: Debug-New Breakpoint-Break 
at Function, gdb: break routine-name) 。 然 后 ,我们 可 以 通过 run 命 令 ， 从 头 运 行程 序 (Eclipse: Run-Run 或 Ctrl-F11、 
Visual Studio: Debug-Start Debugging 或 F5、gdb: run) ， 或 是 通过 continue 命 令 ， 使 得 当前 正在 运行 的 程序 继续 往 下 执 
íT (Eclipse: Run-Resume 或 F8、Visual Studio: Debug-Continue 或 F5、gdb: continue) 。 


新 点 使 我 们 能 够 迅速 把 注意 力 放 在 那些 有 问题 的 代码 上 面 。 设 置 好 断 点 之 后 ， 融 可 以 令 程 序 直接 运行 到 该 处 ， 而 不 用 再 滔 费 
时 间 去 调试 那些 与 问题 无 关 的 代码 了 。 如 果 进 入 了 一 段 与 问题 无 关 的 代码 ， 那 么 可 以 在 其 尾部 设置 断 上 各 ， 并 且 令 程序 继续 向 下 执 
行 ， 这 样 ， 程 序 束 会 在 那个 地 方 停 下 来 ， 并 把 控制 权 交 给 调试 器 。 


有 些 bug， 只 有 妆 程 序 沿 着 特定 的 路 径 执行 时 ， 才 会 表现 出 来 ， 对 于 这 种 bug 来 说 ， 我 们 应 该 把 多 个 断 点 适当 地 结合 起 来 使 
用 。 比 如 ， 有 一 个 经 常 需要 用 到 的 例 程 叫 做 c， 它 里 面 有 一 个 bug， 只 有 当 我 们 在 测试 用 例 t 中 调用 该 例 程 的 时 候 ， 这 个 bug 才 能 


显现 出 来 。 如 果 直 接 在 c 上 面 设 置 断 点 ， 那 么 会 浪费 很 多 时 间 ， 因 为 只 要 有 代码 调用 该 例 程 ， 程 序 就 会 停 下 来 ， 于 是 我 们 殊 必 须 
反复 执行 continue 命 令 ， 直 到 友 现 某 一 次 调用 是 由 测试 用 例 t 所 友 出 的 。 比 较 好 的 做 法 ， 应 该 是 先 给 t 设 置 断 点 ， 等 程序 执行 到 这 
里 之 后 ， 表 给 c 设 置 断 点 (也 可 以 提前 给 c 设 置 断 点 ， 并 将 其 禁用 ， 等 程序 执行 到 t 之 后 ， 表 局 用 该 断后 ) 。 


还 有 一 类 代码 断 点 也 很 有 用 ， 它 们 令 你 能 够 在 程序 衣 江 之前， 有 机 会 查看 当前 的 状态 。 一 般 来 说 ， 当 今 的 调试 器 都 会 在 程序 
出 现 问题 的 时 候 ， 把 执行 过 程 打 断 ， 使 得 调试 者 可 以 在 调试 器 里 面 进行 某 些 操作 。 比 如 ， 如 果 程 序 遇 到 了 未 处 理 的 异常 ， 那 么 
Visual studio 会 弹出 一 个 对 话 框 ， 问 你 要 不 要 在 这 里 中 断 ， 而 gdb 工 具 则 会 在 程序 非 正 常 退出 的 时 候 (例如 ， 因 为 异常 、 信 号 
或 调用 abort0 而 退出 ) ， 打 断 其 执行 过 程 。 如 果 使 用 的 是 Eclipse， 那 么 需要 明确 指出 程序 应 该 中 断 的 时 机 。 单 击 Run-Add Java 


Exception Breakpoint 菜 单 ， 在 弹出 的 对 话 框 中 搜索 并 指定 相关 的 异常 ， 如 果 程 序 人 页 到 了 这 种 异常 ， 那 么 它 的 执行 过 程 就 会 中 
EF. 


调试 器 的 功能 虽然 很 强大 ， 但 是 它 并 没有 超 乎 寻 单 的 能 力 。 如 果 程 序 企 碰 到 某 个 反 单 的 事件 时 ， 采 用 目 己 的 代码 来 退出 ， 那 
么 程序 束 会 直接 停止 使 得 我 们 很 难 但 看 其 在 该 事件 友 生 时 所 处 的 状态 。 对 于 这 样 的 情况 来 说 ， 我 们 可 以 在 程序 处 理 这 种 事件 所 


用 的 那 部 分 代码 上 面 添 加 断 点 。 如 果 找 不 到 那 部 分 代码 ， 那 就 把 断 点 设置 到 经 党 用 来 退出 程序 的 那个 例 程 上 面 (如 exit、_exit 或 
abort) 。 
如 果 还 没有 来 得 及 添加 断 点 ， 程 序 残 已 经 挂 起 了 (ea SLI Ss) ， 那 么 可 以 通过 调试 器 来 强行 停止 这 个 程序 


(Eclipse: Run-Suspend、Visual Studio: Debug-Break Al 或 Ctrl-Alt-Break、gdb: Ctrl-C) 。 程 序 停止 之 后 ， 我 们 可 以 查 
看 栈 中 的 内 容 (参见 第 32 条 ) ， 以 了 解 它 刚 才 正 在 执行 的 是 哪些 语句 。 根 据 这 些 信息 ， 一 般 就 足以 推测 出 使 程序 挂 起 的 原因 
了 。 我 们 也 可 以 从 出 现 问题 的 那 行 代码 开始 ， 进 行 单 步调 试 (参见 第 29 条 ) ， 以 便 更 好 地 理解 程序 的 行为 。 


有 些 场合 下 ， 我 们 并 不 关注 某 一 行 代码 是 在 什么 时 候 执行 的 ， 而 是 关注 某 一 份 数据 是 在 什么 时 候 修 改 的 。 这 可 以 通过 数据 断 
点 或 观察 点 来 实现 。 由 于 计算 机 每 秒 钟 会 执行 数 十 亿 条 指令 ， 因 此 想 在 其 中 把 修改 革 个 变量 值 的 那 条 指令 找 出 来 ， 是 极其 困难 
的 ， 尤 其 还 要 考虑 到 迷途 指针 司 j 可 能 会 改动 内 存 中 任意 位 置 上 面 的 数据 。 所 幸 当 前 的 CPU 都 提供 了 适当 的 机 制 ， 使 得 调试 器 能 
够 通过 指定 内 存 位 置 及 对 应 的 变量 大 小 来 设置 数据 断 点 。 每 次 发 生 内 存 写 入 操作 时 ，CPU 就 检查 正在 写 入 的 这 个 地 址 ， 是 否 位 
于 指定 的 数据 断 点 范围 之 内 ， 如 果 确 实 位 于 该 范围 内 ， 那 么 就 打 断 程序 的 执行 过 程 ， 并 将 其 控制 权 交 给 调试 器 。 由 于 CPU 的 这 
种 检查 机 制 与 普通 的 内 存 写 入 操作 是 同时 发 生 的 ， 因 此 通常 不 会 拖 慢 程序 的 执行 速度 。 


由 于 数据 断 点 与 搬 层 硬件 贴 得 比较 近 ， 因 此 它 设 置 起 来 不 像 代 码 断 点 那样 固定 。 在 Visual Studio 中 ， 可 以 通过 Debug-New 


Breakpoint-New Data Breakpoint 来 设置 这 种 断 点 。 我 们 必须 先 把 程序 执行 起 来 ， 使 得 全 局 变量 的 地 址 得 以 确定 ， 然 后 才能 设 
置 这 样 的 断 点 。 设 置 断 点 时 ， 需 要 指定 的 并 不 是 有 待 观察 的 那个 变量 名 ， 而 是 其 内 存 地 址 (&variable) 及 数据 尺寸 (比如 ， 整 


数 一 般 是 4， 双 精度 浮 点 数 一 般 是 8) 。 使 用 gdb 调 试 的 时 候 ， 只 需 把 变量 名 称 作 为 参数 ， 传 给 watch 命 令 即 可 。 (如 果 gdb 没 有 

给 出 一 行 写 有 Hardware watchpoint 字 样 的 回复 信息 ， 那 束 意 味 着 你 的 工作 环境 无 法 从 硬件 层面 支持 观察 点 ， 此 时 gdb 将 以 软 

件 的 方式 来 模拟 ， 这 会 使 程序 速度 慢 好 几 个 数量 级 。) 对 于 Visual Studio 和 gdb 来 说 ， 如 果 我 们 想 在 动态 分 配 的 变量 (也 就 是 

通过 malloc 或 new 分 配 在 堆 上 的 变量 ,或 是 例 程 的 局 部 变量 ) 上 面 设置 数据 断 点 ， 那 么 必须 先 等 这 个 变量 确实 存在 (我们 可 以 

通过 适当 的 代码 断 点 来 确保 这 一 点 ) ， 待 其 拥有 一 个 已 知 的 内 存 地 址 ， 然 后 才能 进行 设置 。 用 Eclipse 调 试 Java 程 序 的 时 候 ， 很 
易 


容易 残 能 设置 观察 点 : 只 需 打开 对 应 字段 的 天 联 菜单 ， 并 选择 Toggle Breakpoint 即 可 。 


调试 器 还 能 够 设置 市 有 条 件 的 断 点 (必须 满足 一 定 的 条 件 ， 才 能 够 触 友 ) 、 市 有 命中 次 数 的 断 点 (其 出 现 次 数 必须 达到 一 定 
的 值 ， 才 能 够 触 友 ) ， 以 及 市 有 过 滤器 的 断 点 比如， 必须 位 于 特定 的 线程 之 内 ， 才 能 够 触 友 ) 。 这 些 断 点 机 制 在 某 些 情况 下 是 
很 好 用 的 ， 但 如 果 你 过 份 依 赖 它 们 ， 那 束 说 明 你 应 该 考虑 改 用 更 为 强大 的 调试 手段 了 ， 例 如 ， 精 准 的 测试 用 例 (参见 第 54 条 ) 
或 丰富 的 日 志 记 录 (参见 第 40 条 ) 等 。 
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` 如 果菜 段 代码 会 执行 很 多 次 ， 而 其 中 只 有 少数 几 次 是 你 所 关心 的 ， 那 么 就 先 在 其 执行 路 径 的 上 游 设置 断 点 ， 等 程序 暂停 之 
后 ， 再 给 这 段 代码 设置 断 点 。 


+ 如 果 要 对 非 正 党 退出 的 情况 进行 调试 ， 那 么 就 针对 异常 或 针对 程序 在 退出 时 所 调用 的 例 程 来 设置 断 点 。 


“ 如 果 程 序 失去 了 响应 ， 那 么 可 以 在 调试 器 里 面 令 其 停止 执行 。 


RE ERA ARH ERE SAR PAE M bug, 


[1] stray pointer (流浪 指针 ) ， 也 称 为 wild pointer (277847) 或 dangling pointer (& 4444) o 译 者 注 


第 31 条 : 了 解 肥 同调 试 功能 


当前 很 多 计算 机 都 配 有 容量 充足 的 内 存 和 速度 很 快 的 CPU， 这 通常 意味 着 我 们 可 以 逆 同 执行 程序 。 一 般 来 说 ， 为 了 实现 闻 
同 执 行 ， 调 试 器 需要 把 每 条 指令 对 程序 状态 所 做 的 修改 记录 下 来 ， 然 后 在 逆向 执行 的 时 候 ， 撤 销 这 些 修 改 。 执 行程 序 的 过 程 中 ， 
你 有 可 能 友 现 自己 错过 了 某 一 段 可 疑 的 代码 ， 在 这 种 情况 下 ， 反 向 调试 的 好 处 显得 尤为 突出 。 如 果 不 做 反 向 调试 ， 那 我 们 通 妆 
要 把 断 点 设置 得 靠 前 一 些 ， 并 且 重 新 执行 程序 ， 然 后 单 步 进 入 那 段 可 疑 的 代码 中 。 间 题 在 于 : 重新 执行 程序 之 后 ， 可 能 要 化 费 很 
长 一 段 时 间 ， 才 能 够 重 现 目 己 想 要 调试 的 那个 bug， 而 且 如 果 在 情急 之 下 输 错 了 命令 ， 把 正在 调试 的 例 程 给 跳出 了 ， 那 么 又 得 重 
来 一 遍 。 使 用 反 加 调试 功能 残 不 会 这 么 麻烦 了 ， 友 现 目 己 销 过 了 时 一 段 可 疑 的 代码 之 后 ， 你 可 以 逆 同 执行 程序 (等 执行 到 一 定 的 
地 方 之 后， 或 许 需 要 转 为 正 向 执行 ) ， 以 便 锁 定 刚 才 的 那个 bug。 


Ze 
TI 


有 很 多 独立 的 调试 器 与 1DE 都 支持 反 向 调试 ， 只 不 过 该 功能 的 实现 形式 和 名 称 有 所 不 同 。 比 如 ，Visual Studio 
IntelliTrace、Rogue Wave Software 的 TotalView ReplayEngine、Undo Software 的 UndoDB,， 以 及 gdb 等 ， 都 支持 反 向 调 
试 。 在 这 一 类 软件 中 ， 有 的 软件 可 以 单独 运行 ， 有 的 软件 是 在 Eclipse CDT 平 台 下 面 运 行 的 。 由 于 反 向 调试 还 没有 得 到 普及 ， 
此 各 种 软件 对 它 的 支持 程度 (以 及 各 目的 开销 ) 会 有 所 不 同 。 


下 面 我 们 用 gdb 把 反 同调 试 的 过 程 简单 演示 一 志 。 假 设 有 这 样 一 个 很 短 的 程序 需要 调试 。 (为 了 缩减 篇 幅 ， 笔 者 并 没有 在 程 
序 里 面 置 入 bug， 然 而 通过 这 个 例子 ， 你 依然 可 以 明日 在 实际 的 调试 工作 中 ， 应 该 怎样 退回 到 原来 执行 过 的 地 方 。) 


1 #include <stdio.h> 
2 int 
3 main() 
4 1 
5 int 1, sum = 0; 
6 
7 for (i = 0; 1 < 10; i++) 
8 sum += 1; 
9 printfC"%d\n", sum); 
10 } 
首先 用 调试 器 打开 上 述 程序 ， 并 在 main 这 个 入 口 处 设置 断 点 。 


(gdb) break main 

Breakpoint 1 at 0x40050e: file loop.c, line 5. 
(gdb) run 

Starting program: /home/dds/a.out 


Breakpoint 1, main () at loop.c:5 
5 int 1, sum = Q; 


我 们 在 gdb 里 面 显 示 变 量 | 及 sum 的 值 ， 然 后 在 程序 的 最 后 一 行 代码 上 面 设置 断 点 。 接 下 来 ， 要 执行 一 个 天 键 的 record 命 


令 ， 使 得 gdb 能 够 把 程序 的 执行 经 过 记录 下 来 ， 以 便 稍 后 进行 反 向 执行 。 


(gdb) display 1 

(gdb) display sum 

(gdb) break 10 

Breakpoint 2 at 0x400542: file loop.c, line 10. 
(gdb) record 


等 程度 执行 到 刚才 设置 好 的 断 点 之 后 ， 我 们 及 现 ，i 和 sum 的 取 值 是 正确 的 。 


(gdb) cont 

Continuing. 

45 

Breakpoint 2, main () at loop.c:10 
10 } 

2: sum = 45 

i a= 2 


现在 ， 可 以 用 gdb 的 reverse-next 命 令 来 反 向 执行 程序 。 


(gdb) reverse-next 


9 printfC"%d\n", sum); 
2: sum = 45 

1: 1 = 10 

(gdb) reverse-next 

7 for (1 = 0; 1 < 10; 1++) 
2: sum = 45 

1: 1=9 

(gdb) reverse-next 

8 sum += 1; 

2: sum = 36 

1: 1 =9 


reverse-step 命 令 也 用 来 进行 反 向 执行 。 与 正 向 执行 时 所 用 的 step 命 令 相 似 ， 该 命令 不 会 直接 把 某 个 例 程 执行 完 ， 而 是 会 进 
入 那个 例 程 里 面 进行 单 步 执行 。reverse-continue 命 令 可 以 使 程序 一 直 反 向 执行 下 去 ， 直 至 遇 到 断 点 。 对 于 本 例 来 这 ， 这 个 断 点 
束 是 main 尔 数 的 入 口 ， 此 时 我 们 可 以 看 到 ， 那 两 个 变量 又 回 和 到 了 最 急 的 值 。 


(gdb) reverse-continue 
Continuing. 


No more reverse-execution history. 
main () at loop.c:5 


5 Int 1, sum = Q; 
2: sum = 0 
1: 1=0 


请 注意 ， 反 回执 行 是 有 一 些 限 制 的 。 为 了 使 程序 能 够 反 向 执行 ， 调 试 器 必须 在 幕后 做 大 量 的 工作 ， 而 反 向 执行 所 遇 到 的 很 多 
限制 ， 正 源 目 于 此 。 于 是 ， 程 序 的 性 能 可 能 会 急剧 下 降 、 调 试 器 所 耗 的 内 存 可 能 会 相当 多 ， 而 且 反 向 执行 的 距离 也 是 有 限度 的 


(gdb 默 认可 以 回 退 200000 条 措 令 ) 。 此 外 ， 正 在 调试 的 这 个 程序 ， 与 其 他 系统 及 外 部 世界 所 做 的 某 些 交 互 操 作 ， 通 剃 是 无 法 
撤销 的 ， 比 如 ， 已 经 打印 到 终端 中 的 字符 ， 依 然 会 留 在 那里 ， 已 经 从 远程 数据 库 中 删除 的 数据 行 ， 不 会 重新 出 现 ; 输入 给 程序 的 
言 号 以 及 网 络 数据 包 等 异步 事件 ， 同 样 很 难 在 程序 继续 正 同 执行 时 重 制 。 尽 省 如 此 ， 但 是 反 向 调试 毕竟 是 个 有 用 的 功能 ， 有 时 可 
以 为 你 省 下 很 多 时 间 ， 使 你 不 用 再 做 一 些 枯 燥 而 乏味 的 工作 。 


要 后 


-了解 反 向 调试 功能 。 


第 32 条 : 得 看 例 程 乙 间 的 相互 调用 情 ， 


程序 在 执行 的 时 候 ， 会 开辟 一 种 名 为 调用 栈 的 数据 结构 ， 使 得 各 个 例 程 之 间 能 够 按照 一 定 的 顺序 来 相互 调用 。 当 某 个 例 程 调 
用 另 一 个 例 程 的 时 候 ， 它 要 把 下 面 这 些 数 据 推 入 栈 中 ， 或 是 分 配 在 栈 上 面 。 (为 了 优化 性 能 ， 有 时 可 能 会 使 用 CPU 寄 存 器 。) 


. 传 给 受 调 用 的 那个 例 程 的 参数 。 (它们 通 第 按照 从 右 至 左 的 顺序 入 栈 ， 以 便 使 那 种 参数 个 数 可 变 的 例 程 ， 能 够 更 加 容易 地 
对 其 进行 处 理 。) 


:如果 受 调 用 的 例 程 是 一 个 方法 ， 那 么 还 要 传 入 指向 该 方法 所 在 对 象 的 指针 。 
受 调 用 的 例 程 执行 完毕 后 将 要 返回 的 地 址 。 
受 调 用 的 例 程 所 具备 的 局 部 变量 。 


程序 可 以 根据 上 述 元 素 在 目前 这 个 栈 里 面 的 相对 位 置 来 分 别 访 问 它 们 ， 这 样 做 使 得 同一 个 例 程 能 够 多 次 得 到 调用 (BBS 
归 式 的 调用 ) 。 对 于 正在 执行 的 程序 来 说 ， 栈 是 极为 重要 的 信息 ， 其 重要 性 仅 次 于 程序 当前 的 执行 位 置 。 


请 注意 ，x86、x86-64 以 及 68k (68000) 等 CPU 架 构 ， 会 通过 调用 约定 来 确保 栈 的 实际 使 用 方式 与 预期 的 方式 相符 。 而 
ARM、PowerPC 及 SPARC 等 CPU 架 构 ， 则 会 用 CPU 的 寄存 器 来 保存 例 程 的 参数 ， 其 中 有 些 CPU 还 会 把 返回 地 址 也 放 在 寄存 器 
中 ， 对 于 这 种 用 法 来 训 ， 只 有 当 CPU 没 有 足够 多 的 寄存 器 可 以 处 理 数 据 时 ， 它 才 会 把 数据 放 在 栈 中 。 


每 种 调试 器 都 能 够 查看 栈 信 息 (Eclipse: Window-Show View-Debug、Visual Studio: Debug-Windows-Call Stack 或 
Alt-7、gdb: where) , 程序 为 了 到 达 当 前 这 一 点 所 调用 过 的 每 一 个 例 程 ， 都 能 与 栈 信息 中 的 某 一 行 对 应 起 来 。 那 一 行 里 面 写 
有 与 该 例 程 有 天 的 文件 名 或 类 名 、 例 程 本 身 的 名 称 、 例 程 的 参数 以 及 它 上 一 次 执行 到 的 位 置 。 这 些 信息 ， 相 当 于 一 份 摘 述 程序 状 
态 的 快照 。 程 序 当 前 执行 的 这 个 例 程 ， 会 写 在 最 上 方 ， 而 程序 的 入 口 点 ( 通 营 是 一 个 名 叫 main 的 例 程 ) ， 则 会 出 现在 靠近 底部 
的 位 置 ， 有 时 它 的 下 方 ， 可 能 还 写 有 一 些 引 领 程序 到 达 这 个 入 口 点 的 其 他 例 程 (例如 ，Windows 程 序 的 wmain- 

CRTStartup()) ， 那 些 例 程 位 于 运行 时 程序 库 或 内 核 中 。 


在 栈 跟 中 信息 中 ， 有 一 些 地 方 需要 特别 说 明 。 


+ 如 果 栈 跟踪 信息 的 顶部 包含 无 法 识别 的 例 程 ， 那 说 明 你 是 在 程序 正 执行 第 三 方 代码 的 过 程 中 ， 将 其 打 断 的 。 对 于 GUI 程 序 
来 说 ， 如 果 它 正在 通过 框架 中 的 程序 库 来 进行 底层 交互 (如 等 待 用 户 单 击 某 个 按钮 ) ， 那 么 通常 就 会 出 现 这 种 现象 。 此 外 ， 如 果 
程序 在 调用 第 三 方 库 〈 例 如 ， 识 入 式 的 SQL 程序 库 ) 来 处 理 茶 些 繁重 的 任务 时 被 打 断 ， 那 么 也 会 出 现 这 种 现象 。 如 果 显 示 出 来 的 
例 程 不 带 参 数 ， 并 且 显 示 的 是 内 存 地 址 而 不 是 例 程 名 称 ， 那 就 说 明代 码 在 编译 的 时 候 没 有 包含 调试 信息 (参见 第 28 条 ) 。 我 们 可 
以 从 上 到 下 查看 栈 跟 踪 信 息 ， 以 确定 程序 是 从 什么 地 方 开 始 调 用 第 三 方 代 码 的 。 


` 如 果 栈 跟踪 信息 里 面 显 示 的 全 都 是 第 三 方 例 程 ， 那 说 明 程序 可 能 是 通过 框架 来 运作 的 ， 那 个 框架 在 与 需要 和 本 程序 进行 交 
互 的 时 候 ， 会 回调 本 程序 中 的 相关 例 程 ， 并 把 控制 权 交 给 程序 。 由 于 我 们 要 调试 的 或 许 不 是 框架 中 的 代码 ， 而 是 自己 程序 中 的 代 


码 ， 因 此 需要 设法 添加 一 些 断 点 ， 使 得 程序 能 够 在 运行 到 这 一 部 分 代码 时 停 下 来 。 


- 如 果 栈 跟踪 信息 的 层次 很 浅 ， 而 且 其 中 没有 我 们 可 以 看 得 懂 的 例 程 ， 那 可 能 意味 着 某 个 迷途 指针 把 栈 给 破坏 了 。 此 时 需要 
从 旱 前 的 某 个 位 置 开始 ， 仔 细 对 代码 进行 单 步调 试 ， 以 确定 调用 栈 是 在 什么 地 方 遭 到 破坏 的 。 


“ 如 果 某 个 或 菜 些 例 程 在 栈 跟踪 信息 里 面 反 复出 现 ， 那 可 能 说 明 程 序 的 递归 代码 有 bug。 


根据 调试 器 所 显示 出 来 的 栈 信息 ， 我 们 很 容易 就 能 在 例 程 之 间 游 走 。 如 果 使 用 的 是 沉 有 图 形 界面 的 调试 器 ， 那 么 只 需要 在 材 
言 筷 中 单 击 对 应 的 行 ， 融 可 以 令 程序 进行 上 下 文 切换 ， 从 而 跳 转 到 与 对 应 的 栈 帧 有 天 的 那个 例 程 中 。 跳 转 过 去 之 后 ， 你 可 以 看 到 
那个 例 程 当时 执行 到 哪 一 行 代码 了 ， 而 且 还 可 以 查看 它 的 局 部 变量 与 参数 。 如 果 使 用 的 是 gdb 工 具 ， 那 么 可 以 通过 frame n 命 令 
来 把 程序 的 上 下 文 切换 到 第 n 帧 ， 此 外 ， 也 可 以 通过 up 和 down 命 令 ， 在 村 帧 乙 间 上 下 移动 。 


am 
` 查看 程序 的 栈 信息 ， 以 了 解 其 执行 状态 。 


+ 如 果 栈 信息 比较 乱 ， 那 说 明代 码 写 得 可 能 有 问题 。 


BAR: 了 解 喇 样 把 调试 器 迁 接 到 正 任 运行 的 进程 上 


有 时 我 们 通过 大 量 的 努力 ， 或 是 在 偶然 的 机 绿 忆 下 ， 重 现 了 一 个 相当 重要 而 又 难于 捕获 的 bug。 可 是 问题 在 于 ， 表 现 出 该 
bug 的 这 款 应 用 程序 ， 并 不 是 从 调试 器 里 面 运 行 的， 如 果 现 在 又 要 从 调试 器 里 面 局 动 一 次 ， 那 么 或 许 融 很 难 重 现 尼 了 。 面 对 这 样 
的 问题 ， 我 们 应 该 怎么 办 呢 ? 


所 乎 调试 器 能 够 把 目 己 连接 到 正在 运行 的 线程 上 面 。 如 果 要 用 Visual Studio 来 调试 ， 那 融通 过 Debug-Attach to Process 
菜单 来 连接 ， 如 果 要 用 gdb 来 调试 ， 那 就 先 找 到 待 调试 的 那个 程序 所 对 应 的 ID 号 。 运 行 ps 命令 ， 并 在 输出 结果 中 查看 PID 栏 ， 即 
可 找到 这 一 信息 。ps 命 令 的 参数 及 输出 的 样式 ， 在 各 系统 上 面 有 所 不 同 。 下 面 这 三 条 命令 ， 可 以 分 别 在 GNU/Linux、OS XK 
FreeBSD 系 统 上 面 根据 给 定 的 用 户 名 来 查询 相应 的 Web 服 务 器 进程 。 


$ ps -u apache 

PLD TT TIME CMD 
25582 ? 00:00:00 httpd 
25583 ? 00:00:00 httpd 
$ ps -u www 


UID PID TTY TIME CMD 
70 299 ?? 0:00.02 /usr/sbin/httpd -D FOREGROUND 
70 5363 ?? 0:00.00 /usr/sbin/httpd -D FOREGROUND 


$ ps -U www 
PID TT STAT TIME COMMAND 
1045 - S 33:39.19 nginx: worker process (nginx) 


然后 ， 以 带 有 进程 id 的 -p 选 项 来 运行 gdb 命 令 ， 以 便 与 待 调试 的 程序 相连 接 。 


$ sudo gdb -p 25582 
(gdb) where 


#0 0x00007f75e115d017 in accept4 () from /11b64/libc.so.6 

#1 0x00007f75e18687ba in apr_socket_accept () from /usr/11b64/ 
libapr-1.s0.0 

#2 0x000055f2afFf25513 in ap_unixd_accept () 

#3 0x00007fF75d859fF717 in ?? () from /etc/httpd/modules/ 
mod_mpm_prefork.so 

#4 0x00007f75d859f9d5 in ?? () from /etc/httpd/modules/ 
mod_mpm_prefork.so 

#5 0x00007f75d859fa36 in ?? () from /etc/httpd/modules/ 
mod_mpm_prefork.so 

#6 0x00007f75d85a0710 in ?? () from /etc/httpd/modules/ 
mod_mpm_prefork.so 

#7 0Ox000055f2afef000e in ap_run_mpm () 

#8 Ox000055f2afee97b6 in main () 


如 果 想 把 调试 器 连接 到 Java 程 序 ， 那 么 在 用 JVM 局 动 那 个 Java 程 序 时 ， 必 须 传 入 下 面 这 样 的 参数 : 


-agentlib:jdwp=transport=dt_socket, address=127.0.0.1:8000, \ 
server=y, suspend=n 


如 果 用 上 面 的 参数 来 运行 Java 程 序 ， 那 么 该 程序 束 可 以 在 同一 台 计 算 机 (可 以 用 127.0.0.1 这 个 IP 地址 来 表示 ， 也 可 以 用 
localhost 来 表示 ) 的 8000 端 口上 面 ， 监 听从 调试 器 方面 传 来 的 TCP 连 接 。 如 果 要 运行 很 多 个 有 待 调试 的 Java 进 程 ， 那 么 必须 给 
每 个 进程 措 定 互 不 相同 的 并 口 ， 我 们 可 以 在 1024 至 65535 这 个 范围 内 ， 选 择 某 个 尚未 占用 的 新 口 。netstat-an 命 令 能 够 列 出 处 于 
listen 状 态 的 TCP 连 接 ， 由 此 可 以 看 到 当前 有 哪些 端口 已 经 占用 了 。 如 果 要 用 Eclipse 来 调试 程序 ， 那 么 接 下 来 就 单 击 Run- 
Debug Configurations-New launch configuration， 并 按照 之 前 启动 Java 程 序 时 所 指定 的 参数 ， 填 写 Host 和 Port 字 段 ， 然 后 
单 击 Debug， 将 调试 器 连接 到 指定 的 进程 。 此 外 ， 如 果 友 现 某 个 Java 进 程 运行 得 不 大 正 剃 ， 那 么 可 以 把 该 进 程 的 id 传 给 jstack 谷 
令 ， 这 会 显示 出 正在 运行 的 每 一 条 线程 所 对 应 的 栈 转 储 信息 ， 我 们 由 此 就 能 够 知道 该 进程 到 讨 在 做 些 什么 。 


把 调试 器 连接 到 正在 运行 的 进程 之 后 ， 可 以 打 断 其 执行 过 程 (Eclipse: Run-Suspend、Visual Studio: Debug-Break 
All. gdb: break) ， 并 查看 其 调用 栈 来 检视 该 进程 当前 究竟 在 什么 样 的 情境 中 执行 (参见 第 32 条 ) 。 此 外 ， 也 可 以 设置 一 些 断 
护 ， 使 程序 在 运行 到 这 些 断 点 的 时 候 得 以 中 断 。 在 程序 的 运行 过 程 中 ， 还 可 以 查看 那些 在 整个 程序 学 围 内 都 可 以 访问 的 变量 及 对 
象 。 


有 了 时 可 能 要 调试 一 个 运行 在 其 他 主机 上 面 的 程序 。 之 所 以 要 这 样 做 ， 可 能 因为 我 们 使 用 的 是 市 有 图 形 界面 的 调试 器 ， 而 执行 
程序 的 那 台 计算 机 却 没有 图 形 界面 ， 或 者 没有 提供 远程 访问 其 图 形 界面 的 方式 ， 这 种 情况 ， 通 剃 出 现在 执行 嵌入 式 软 件 或 代码 的 
服务 器 上 面 。 还 有 一 种 情况 ， 是 因为 待 调试 的 程序 运行 在 缺乏 相 天 资源 或 底层 设施 的 设备 上 面 ， 这 种 设备 没有 办 法 开局 功能 完 
的 调试 器 。 面 对 这 两 类 情况 ， 我 们 需要 在 远 端 运 行 一 款 小 型 的 调试 监视 器 ， 并 且 把 目 己 的 调试 器 与 之 相连 。 具 体 细节 会 根据 调试 
器 及 连接 类 型 而 有 所 不 同 ， 请 您 查阅 与 目 己 的 工作 环境 有 天 的 文档 。 


下 面 来 演示 如 何 用 gdb 进 行 远程 调试 。 假 设 要 对 电 祝 上 面 的 某 一 款 录 像 程序 进行 调试 ， 那 束 先 在 电视 端 启动 调试 服务 器 ， 令 
其 监听 (未 占用 的 ) 1234 端 口 ， 使 得 工作 计算 机 中 的 客 尸 端 能 够 通过 该 端口 与 调试 服务 器 建 VTCP 连 接 。 


$ gdbserver your-workstation.example.com:1234 video-recorder 


然后 ， 在 目 己 的 工作 计算 机 上 面 ， 以 相同 的 可 执行 文件 为 参数 来 运行 gdb 售 令 。 接 下 来 ， 通 过 target 命 令 指 定 远程 主 机 和 和正 


$ gdb video-recorder 
(gdb) target remote tv-12.example.com:1234 
Remote debugging using tv-12.example.com:1234 


现在 残 可 以 在 目 己 的 工作 计算 机 上 面 ， 像 执行 单 规 的 gdb 命 令 那 样 来 控制 并 得 看 电视 中 的 video-recorder 进 程 了 。 如 果 你 认 
为 这 种 远程 调试 的 办 法 太 过 复杂 ， 那 么 可 以 考虑 给 远程 主机 安 沪 一 款 市 有 图 形 界面 的 调试 器 ， 并 将 其 窗口 展示 到 自己 的 计算 机 
中 ， 或 是 把 它 的 屏幕 映射 到 目 己 的 显示 器 上 面 (参见 第 18 条 ) 。 


am 
` 把 调试 器 连接 到 正在 运行 的 进程 上 面 ， 以 便 对 其 进行 调试 。 


` 通过 远程 调试 机 制 ， 对 运行 在 资源 受 限 设备 上 面 的 应 用 程序 进行 调试 。 


第 35 条 : 了 解 息 样 运用 核心 转 储 信息 来 进行 调试 


我 们 通常 可 以 在 应 用 程序 骨 演 或 终止 之 后 对 其 进行 调试 。 运 行 在 Unix 系 统 上 面 的 原生 应 用 程序 能 够 生成 核心 转 储 文件 ， 这 
是 系统 对 应 用 程序 月 江 时 的 情况 所 做 的 内 存 镜像 。 (由 于 刚刚 引入 这 个 概念 时 ， 业 界 还 在 使 用 磁 心 内 人 存 ， 因 此 这 种 文件 残 称 作 核 
心 转 储 。) 要 想 生成 核心 转 储 文件 ， 我 们 需要 满足 操作 系统 所 提出 的 相关 要 求 ， 并 做 出 相应 的 设置 。 有 的 情况 比较 简单 ， 应 用 程 
序 只 需要 能 够 在 其 当前 目录 里 面 ， 创 建 名 为 core 的 文件 即 可 ， 有 的 情况 则 复杂 一 些 ,， 例 如 ， 可 以 在 Linux 系 统 上 面 进 行 配置 ， 把 
核心 转 储 信息 通过 管道 友 给 指定 的 程序 。 最 重要 的 一 个 问题 是 : 用 户 所 能 生成 的 核心 转 储 文件 ， 是 有 容量 限制 的 ， 这 个 限额 通常 
设置 为 0。 我 们 一 般 可 以 通过 ulimit-c 命 令 来 查看 限额 ， 并 且 可 以 人 在 该 命令 后 面 补 充 一 个 参数 ， 以 KB 为 单位 来 指定 核心 转 储 文件 
的 最 大 容量 。 如 果 想 要 把 这 个 修改 后 的 值 固 定 下 来 ， 那 么 可 以 把 该 命令 添加 到 某 位 用 户 或 整个 系统 的 shel 配 置 文件 中 ， 例 如 ， 
可 以 添加 到 .bash_profile 或 /etc/profile 里 面 。 


如 果 想 用 gdb 来 查看 Unix 核 心 转 储 镜像 ， 那 么 就 把 程序 名 称 与 核心 转 储 文件 的 名 称 ， 作 为 参数 传 给 gdb。 然 后 ， 可 以 用 
where 命 令 查 看 程序 在 友 生 月 演 时 所 执行 到 的 位 置 ， 也 可 以 在 调用 栈 里 面 的 各 个 栈 帧 之 间 游 走 ， 还 可 以 对 表达 式 进 行 求 值 ， 以 判 
新 程序 的 状态 。 由 于 核心 转 储 文件 特别 有 用 ， 因 此 你 可 能 想 要 在 程序 遭遇 内 部 错误 时 ， 生 成 这 样 的 一 份 文 件 。 这 可 以 通过 调用 
abort 国 数 来 实现 。 


在 Windows 系 统 中 ， 我 们 要 用 另外 一 套 流程 来 对 原生 应 用 程序 进行 事后 调试 。 由 于 Windows 程 序 默认 并 不 会 生成 转 储 广 
件 ， 因 此 必须 在 应 用 程序 里 面 调用 MiniDumpWriteDump 阔 数 。 与 abort 为 数 类 似 ， 这 个 国 数 也 应 该 是 要 等 到 程序 出 现 内 部 钳 
误 的 时 候 ， 才 去 调用 的 。 此 外 ， 当 程序 上 友 生 异 音 (比如 ， 访 问 了 非法 的 内 和 存 地 址 ) 时 ， 我 们 可 能 也 希望 MiniDumpWriteDump 
能 够 得 到 调用 ， 这 可 以 通过 SetUnhandledExceptionFilter 函 数 来 实现 : 把 调用 MiniDumpWriteDump 的 那个 函数 ， 作 为 参数 
传 给 SetUnhandledExceptionFilter 即 可 。 有 了 转 储 文件 之后 ， 可 以 用 Visual Studio 打 开 该 文件 ， 以 查看 应 用 程序 在 生成 转 储 时 
所 处 的 状态 。 


有 时 应 用 程序 虽然 没有 衣 溃 ， 但 是 却 失 去 了 啊 应 ， 或 进入 了 一 种 你 需要 对 其 进行 调试 的 状态 ， 此 时 你 可 能 并 不 想 把 调试 器 连 
接 到 这 个 程序 上 面 ， 而 是 想 创建 一 份 内 存 转 储 文件 ， 以 便 把 程序 状态 永久 保存 下 来 ， 将 其 友 给 同事 ， 或 是 留 着 稍 后 进行 调试 。 在 


Unix 系 统 中 ， 可 以 通过 kill-ABRT process-id 命 令 给 程序 友 送 SIGABRT 信 和 号， 从 而 迫使 其 生成 转 储 文件 。 (查询 进程 

id (process-id) 的 办 法 ， 请 参见 第 34 条 。) 如 果 程 序 运 行 在 终端 窗口 里 面 ， 那 么 也 可 以 通过 按 下 Ctrl-\ 组 合 键 来 发 送 这 个 信 

号 。 在 Windows 系 统 中 ， 可 以 打开 task manager (任务 管理 器 ) ， 右 击 相关 的 进程 ， 然 后 选择 Create Dump File 菜单 项， 这 
样 就 会 在 临时 目录 中 生成 一 份 转 储 文件 。 (这 个 目录 指 的 是 TEMP 环 境 变量 所 对 应 的 目录 ， 可 以 运行 %TEMP% 来 查看 其 内 容 。 

) 


如 果 你 使 用 的 是 一 种 运行 在 托管 环境 中 的 语言 ， 如 C#、Java、JavaScript、Perl、Python 或 Ruby 等 ， 那 么 它们 对 事后 调试 
的 支持 情况 可 能 会 各 有 不 同 ， 或 是 要 根据 具体 的 厂商 来 是， 有些 语言 甚至 根本 就 不 提供 事后 调试 机 制 。 之 所 以 会 这 样 ， 是 因为 它 
们 所 使 用 的 底层 技术 更 加 抽 销 、 更 加 复杂 ， 并 且 会 随 着 实现 情况 而 有 所 变化 (你 可 以 想象 一 下 即时 编译 的 实现 万 式 ) ， 于 是 ， 操 
作 系 统 束 没有 办 法 直接 创建 内 存 转 储 文件 了 ， 而 且 有 的 时 候 (比如 ， 有 上 和 干 个 线程 正在 执行 ， 或 是 有 很 多 JavaScript 事 件 有 竺 处 
理 ) ， 创 建 这 种 文件 会 对 计算 机 提出 很 高 的 要 求 。 根 据 笔者 编写 本 书 时 的 情形 来 看 ， 很 多 托管 环境 要 么 不 提供 事后 调试 机 制 ， 要 
么 束 仅 仅 提 供 一 些 很 基础 的 支持 。 如 果 你 是 在 这 样 的 环境 之 下 做 开 友 的 ， 那 么 在 了 解 到 与 事后 调试 有 关 的 知识 之 后 ， 可 以 查阅 当 
前 的 文档 ， 看 看 该 环境 能 够 提供 何 种 程度 的 支持 。 


事后 调试 机 制 的 常见 用 法 ， 是 打造 一 套 流 程 ， 使 我 们 可 以 根据 该 流程 ， 从 客 尸 那里 获取 内 存 转 储 文件 ， 并 对 其 进行 调试 。 这 
样 的 一 套 流 程 ， 应 该 做 到 以 下 几 氮 。 


1. 必 须 使 目 己 所 写 的 程序 能 够 创建 出 内 存 转 储 文件 ， 以 及 与 之 相关 的 元 数据 (metadata) 。 内 存 转 储 文件 的 创建 万 式 ， 刚 
才 我 们 已 经 讲 过 了 ， 而 至 于 元 数据 ， 则 至 少 应 该 包含 程序 的 版 本 ， 此 外 ， 还 可 以 包含 与 程序 的 执行 环境 有 关 的 数据 (如 处 理 器 、 
操作 系统 、 环 境 变量 、 共 享 库 的 版 本 ) 、 日 志文 件 、 客 尸 所 输入 的 数据 (要 把 客 尸 的 机 密 保护 好 ) 以 及 程序 的 历次 使 用 情况 (这 
部 分 内 容 可 以 存放 在 日 志文 件 里 面 ) 。 


2. 程 序 生 成 了 内 存 转 储 文件 之 后 ， 必 须要 有 适当 的 办 法 将 其 友 送 出 去 。 如 果 程序 月 省 之 后 ， 其 状态 已 经 遭 天 了 破坏 ， 那 么 最 
好 是 通过 另外 一 个 程序 来 友 送 这 份 文件 。 我 们 可 以 用 那个 程序 来 运行 本 程序 ， 并 检查 本 程序 的 退出 状态 ， 只 要 友 现 这 个 状态 码 和 
预先 达成 的 约定 值 相符 ， 那 就 把 内 存 转 储 文件 友 送 出 去 。 这 个 办 法 要 想 奏 效 ， 我们 必须 在 SIGABRT 信 号 处 理 程序 (适用 于 Unix 
系统 ) 或 异 弟 过 滤器 销 数 (适用 于 Windows 系 统 ) 中 ， 把 该 值 用 作 本 程序 的 退出 值 。 内 存 转 储 数 据 可 以 通过 HTTP POST 请 求 来 
RS, KRITERIA. 


3. 在 你 工作 的 地 方 编写 一 个 小 型 的 服务 器 程序 ， 用 来 接收 相应 的 HTTP 请 求 ， 并 把 收 到 的 数据 保存 起 来 ， 以 便 进 行 深入 的 分 
析 。 其 中 的 某 些 元 数据 或 许 应 该 放 在 数据 库 里 面 ， 这 样 分 析 起 来 会 更 容易 。 


4. 设 计 出 一 种 办 法 ， 以 便 对 友 生 月 演 的 这 个 版 本 进行 调试 。 从 源 代码 这 一 方面 来 说 ， 只 要 保证 自己 在 版 本 控制 系统 里 面 ， 给 
每 个 友 行 版 所 对 应 的 源 代码 都 贴 过 标签 (参见 第 26 条 ) ， 并 确保 客 尸 所 发 来 的 元 数据 里 面 也 含有 这 种 标签 (tag) MALT. m 
从 可 执行 文件 这 一 方面 来 说 ， 由 于 很 难保 证 自己 可 以 根据 某 个 版 本 的 源 代码 来 重建 一 个 与 之 前 完全 相同 的 程序 (需要 考虑 到 其 中 
众 入 的 时 间 戳 、 代 码 的 随机 化 以 及 编译 器 的 更 新 等 因素 ) ， 因 此 ， 最 好 是 在 提交 每 个 版 本 的 源 代码 时 ， 把 编译 出 来 的 二 进 制 文件 
也 一 起 提交 到 版 本 控制 系统 里 面 (如 果 是 Windows 程 序 ， 那 么 还 要 把 相关 的 PDB 调试 文件 放 进 去 ) 。 


5. 能 够 使 用 正确 的 源 代码 、 可 执行 文件 以 及 与 之 相应 的 内 存 转 储 文件 来 局 动 调试 器 ， 以 便 对 友 生 月 演 的 这 个 版 本 进行 调试 。 


如 果 你 完 得 这 套 流程 构建 起 来 比较 复杂 ， 那 么 可 以 及 用 框架 完成 这 些 任务 ， 比 如 ， 可 以 考虑 采用 PLCrashReporter 框 架 ( 适 
FAFIOSROS X) ， 并 在 该 框架 上 面 搭建 服务 ， 或 使 用 由 Crittercism、New Relic 或 Splunk MINT 所 提供 的 托管 服务 。 


TAR 


“ 获取 并 检视 程序 的 内 存 转 储 信 息 ， 以 便 对 发 生 崩 演 和 失去 响应 的 应 用 程序 进行 调试 。 


. 打造 一 套 错 误 报 告 系统 ， 以 便 对 客户 所 安装 的 应 用 程序 进行 调试 。 


第 36 条 : 把 调试 工具 设置 好 


对 于 调试 工作 来 说 ， 我 们 应 该 用 心 营造 一 套 基 本 的 工作 环境 


些 思 路 。 


-一 /AN 


参见 第 9 条 ) ， 这 其 中 融 包 括 对 调试 器 进行 设置 。 下 面 给 出 一 


一 


首先 ， 要 使 用 图 形 化 的 用 户 界 面 。 尽 管 笔 者 喜欢 命令 行 界面 ， 而 且 党 得 自己 在 用 这 种 界面 工作 时 ， 效 率 会 变 得 很 高 ， 但 是 毕 
竟 有 少数 几 种 工作 ， 更 适合 用 GUI 界 面 来 完成 ， 调 试 就 是 其 中 之 一 。 由 于 调试 的 时 候 要 同时 查看 源 代码 、 局 部 变量 、 调 用 栈 、 日 
志 消 息 等 多 种 数据 ， 因 此 图 形 化 的 界面 更 有 优势 。 如 果 你 是 用 Eclipse 或 Visual Studio 来 调试 程序 的 ， 那 就 不 用 考虑 GUI 的 问题 
了 ， 因 为 这 些 IDE 本 身 就 具备 图 形 界 面 。 如 果 你 是 用 gdb 来 调试 程序 的 ， 那 么 可 以 考虑 改 用 其 他 一 些 工 具 。 功 能 上 较为 完备 的 蔡 
代 产 品 是 DDD (DataDisplayDebugger) ， 它 是 个 基于 Unix 的 前 端 工具 ， 含 有 完备 的 图 形 界面 ， 不 仪 可 以 支持 gdb， 而 且 还 能 
支持 其 他 一 些 运 行 在 命令 行 界面 中 的 调试 器 ， 例 如 ， 那 些 适 用 于 Perl 语 言 、Bash shell (bashdb) 、make (remake) 以 及 
Python 语言 (pydb) 的 调试 器 。 此 外 ， 它 还 可 以 很 好 地 展示 程序 的 数据 结构 。 如 果 你 的 程序 运行 在 Unix 主 机 上 面 ， 那 就 用 
DDD 来 做 调试 吧 。 (只 要 客户 端 计算 机 的 操作 系统 支持 X server 就 可 以 ，Windows 与 OS X 都 属于 这 样 的 系统 。) 还 有 一 个 办 法 
是 用 -tui 选 项 来 运行 9db， 或 是 在 运行 了 gdb 之 后 ， 输 入 -命令 ， 进 入 基于 文本 的 用 户 界面 (text-based user interface, tui) 。 
如 果 你 不 习惯 Emacs 风 格 的 快捷 键 ， 那 么 可 以 考虑 改 用 cgdb， 它 的 界面 与 vi 比较 接近 。 


还 有 一 种 办 法 也 可 以 令 你 更 加 流畅 地 使 用 调试 器 ， 那 束 是 把 调试 时 所 用 到 的 一 些 实用 命令 保存 到 文件 里 面 ， 以 后 每 次 开始 调 
试 时 ， 都 把 这 份 文 件 执行 一 裔 。Visual studio 和 Eclipse 会 目 动 把 调试 过 程 中 所 进行 的 设置 (例如 ， 你 所 添加 的 断后 与 观察 
A) ， 保 存 到 当前 的 项 目 中 。gdb 虽 然 设 置 起 来 稍微 有 点 困难 ， 但 却 可 以 做 得 更 加 灵活 一 些 。 我 们 可 以 把 gdb 命 令 放 在 名 
为 .gdbinit 的 文件 里 面 ， 并 将 其 保存 到 home 目 录 或 项 目 所 在 的 目录 中 ， 前 者 可 以 在 每 次 局 动 gdb 时 得 到 执行 ， 后 者 可 以 在 每 次 
进入 项 目的 目录 并 运行 9db 时 得 到 执行 。 此 外 ， 也 可 以 把 gdb 命 令 放 在 其 他 文件 里 面 ， 然 后 在 局 动 gdb 时 ， 通 过 -x 选项 加 载 该 文 
件 。 这 三 种 办 法 还 可 以 合 起 来 用 : 


- 把 每 次 启动 db 时 都 要 执行 的 那些 命令 ， 放 在 $HOME/.edbinit 里 面 。 
` 把 针对 当前 项 目 而 定义 的 那些 内 容 ， 放 在 myproject/.gdbinit 里 面 。 
把 有 助 于 调试 1234 号 事务 的 那些 断 点 和 观察 点 ， 放 在 名 为 issue-1234 文 件 里 面 。 


在 全 局 的 .gdbinit 文 件 中 ， 可 以 放 入 一 个 特别 有 用 的 命令 ， 这 就 是 set history save， 它 可 以 令 gdb 把 你 每 次 在 调试 时 所 输入 
命令 保存 起 来 ， 下 次 启动 9db 之 后 ， 你 依然 可 以 通过 键盘 的 上 下 箭头 或 通过 搜索 来 找到 邦 5 些 命令 。 此 外 ， 你 可 以 在 home 目 录 里 
面 放 入 名 为 .inputrc 的 文件 ， 并 在 其 中 编写 一 些 命令 ， 使 得 gdb 的 输入 界面 所 使 用 的 快捷 键 ， 能 够 符合 你 的 习惯 。 比 如 ，set 
editing-mode vi 或 set editing-mode emacs 命 令 ， 可 以 分 别 把 快捷 键 设置 得 与 Emacs 或 vi 编辑 器 所 使 用 的 那 套 快捷 键 相符 。 


全 局 的 .gdbinit 文 件 ， 还 适合 用 来 给 那些 弟 用 的 命令 定义 别名 。 比 如 ， 下 面 这 个 脚本 定义 了 名 为 sf 的 新 命令 ， 用 来 显示 当前 
的 栈 帧 。 


define sf 
where 
info args 
info locals 
end 
document sf 
Display current stack frame 
end 


GitHub 网 站 上 有 一 个 Gist 叫 做 gdbinit， 它 给 出 了 很 多 这 样 的 用 法 。 


我 们 可 以 用 更 为 复杂 的 脚本 来 调试 一 些 困难 的 问题 ， 当 我 们 不 想 或 不 能 在 程序 的 源 代码 中 添加 断言 的 时 候 (参见 第 43 
条 ) ,这么 做 尤其 有 用 。 比 如 ， 如 果 程 序 所 使 用 的 资源 必须 用 一 对 lock-unlock 块 括 起 来 ， 而 且 最 多 只 应 该 用 一 个 这 样 的 块 括 起 
来 ， 那 么 残 可 以 移 运 行程 序 清单 4.1 中 的 gdb 脚 本 ， 然 后 再 执行 程序 ， 看 看 它 在 资源 的 保护 上 面 ， 有 没有 遵守 刚才 所 六 的 那 条 规 
则 。 


程序 清单 4.1 用 来 对 锁定 顺序 进行 检查 的 gdb 脚 本 


# Define a counter variable to keep track of locks 
set $nlock = 0 


# Stop the execution with a backtrace on nested locks 
break lock if $nlock > 0 
commands 
silent 
echo Nested lock\n 
# Display the stack trace 
backtrace 
# Stop the program's execution 
break 
end 


# Stop the execution with a backtrace on duplicate unlocks 
break unlock if $nlock <= 0 
commands 
silent 
echo Duplicate unlock\n 
backtrace 
break 
end 


# When the lock routine is called, increase the counter 
# Define a new breakpoint 
break lock 
# Commands to execute when the lock routine is called 
commands 

silent 

# Increment counter variable 

set $nlock = $nlock + 1 

# Continue the program's execution 

continue 
end 


# When the unlock routine is called, decrease the counter 
break unlock 
commands 
silent 
set $nlock = $nlock - 1 
continue 
end 


上 面 这 段 脚本 ， 首 先 定 义 了 名 为 nlock 的 计数 器 变量 ， 以 统计 当前 的 锁定 深度 。 接 下 来 ， 它 给 lock 和 unlock 这 两 个 函数 ， 
分 别 设置 有 条 件 的 断 点 ， 用 以 检查 $nlock 变 量 的 值 是 否 合理 ， 如 果 发 现 这 两 个 函数 的 调用 顺序 不 对 ， 那 融 中 断 执 行 过 程 并 打印 
出 错误 消息 。 此 外 还 有 两 个 断 点 也 分 别 设置 在 这 两 个 函数 上 面 ， 用 以 维护 $nlock 变 量 的 值 。 请 注意 ， 这 两 个 有 条 件 的 断 点 ， 必 
须 定 义 在 那 两 个 无 条 件 的 断 点 之 前 。 


如 果 gdb 本 身 的 功能 无 法 满足 你 的 需求 ， 那 么 可 以 考虑 采用 新 版 gdb 所 提供 的 compile 命 令 来 编译 并 运行 代码 。 这 些 代码 使 
用 与 应 用 程序 相同 的 原生 语言 来 把 写 ， 并 且 能 够 访问 局 部 和 全 局 的 变量 及 六 数 。 如 果 我 们 用 这 种 编译 后 的 元 素来 定义 新 的 调试 合 
令 ， 那 么 加 可 以 借 此 实现 出 很 多 功能 ， 但 是 要 注意 : 复杂 一 些 的 调试 机 制 ， 通 常 还 是 应 该 实现 在 程序 自身 的 源 代码 里 面 ， 以 便于 


对 其 进行 维护 、 分 享 及 归档 (参见 第 40 条 ) 。 除 非 确实 有 强烈 的 理由 使 得 我 们 无 法 这 么 做 ， 否 则 ， 融 不 应 该 把 所 有 的 基本 调试 
机 制 都 用 gdb 命 令 来 实现 。 


有 时 在 修改 了 程序 的 源码 之 后 ， 为 了 保留 本 次 调试 过 程 中 所 输入 的 一 些 命令 ,我 们 并 不 想 重 新 启动 9db。 有 一 种 方式 能 够 做 
到 这 一 点 ， 那 束 是 在 gdb (或 男 外 一 个 窗口 ) 里 面 运行 make 命 令 。 当 我 们 重新 运行 程序 时 ，gdb 会 判断 出 程序 的 可 执行 文件 已 
经 友 生 了 变化 ， 因 而 会 目 动 把 它 重 新 加 载 一 饥 。 


arm 
AS JE ait A IG RR 9 WIA Eo 
` 对 gdb 进 行 配置 ， 使 它 能 够 把 输入 过 的 命令 保存 下 来 ， 并 设置 一 套 符合 自己 使 用 习惯 的 快捷 键 。 
“ 把 常用 的 命令 放 在 gdb 肢 本 中 。 


: 修改 完 源 代码 之 后 ， 可 以 不 重新 启动 gdb， 而 是 直接 在 gdb 里 面 构建 程序 ， 以 便 保 留 你 在 这 次 调试 会 话 中 所 输入 过 的 命令 。 


第 37 条 : 学 会 但 看 泡 编 代码 及 原始 内 仔 


我 们 在 调试 程序 时 或 许 会 友 现 : 即便 是 很 简单 的 一 行 代码 ， 也 依然 有 可 能 无 法 像 预 期 的 那样 运作 。 要 想 找到 问题 的 原因 ， 我 
们 可 以 去 看 看 程序 的 底层 代码 究竟 是 如 何 执行 的 ， 在 这 个 层面 ， 我 们 所 看 到 的 内 容 融 是 程序 真正 执行 的 内 容 ， 也 残 是 说 ， 我 们 所 
看 到 的 每 一 条 机 器 指令 ， 都 对 应 一 项 简单 的 操作 ， 而 不 会 包含 一 些 夹杂 着 隐 星 问题 的 抽象 层 。 查 看 这 些 正在 执行 的 机 器 码 ， 可 以 
帮助 我 们 友 现 各 种 各 样 的 错误 ， 例 如， 执行 了 不 必要 的 类 型 转换 、 误 解 了 操作 符 的 优先 级 规则 、 无 意 中 使 用 了 重 载 之 后 的 操作 
符 、 使 用 了 没有 配对 的 括号 、 使 用 了 错误 的 数值 类 型 (如 在 本 来 应 该 用 long 的 地 方 使 用 了 int) 或 是 使 用 了 不 当 的 多 态 例 程 等 。 
(其 中 菏 些 问题 可 以 通过 蛙 步 调试 来 进行 深入 探 合 ， 但 是 代码 内 联 (code inlining) 机 制 或 许 会 使 你 无 法 这 样 做 。) 


机 器 指令 解读 起 来 ， 其 实 并 没有 想象 的 那样 困难 。 比 如 ， 程 序 清 单 4.2 中 的 这 个 C 语 言 程序 ， 可 以 采用 两 种 不 同 的 格式 来 编 
译 (未 加 优化 的 ) 汇编 代码 ， 一 种 格式 是 程序 清单 4.3 这 样 的 ARM 代 码 ， 它 采用 AT&T 汇 编 语 法 (assembler syntax) ， 这 种 格 
式 经 常 出 现在 Unix 系 统 上 面 ， 另 一 种 格式 是 程序 清单 4.4 这 样 的 Intel x86 代 码 ， 它 采用 IntelI 汇 编 语 法 ， 这 种 格式 经 常 出 现在 
Windows 系 统 上 面 。 大 多 数 汇 编 指令 都 是 顾名思义 的 ,例如 ，add (加 法 ) 、mov (move, #7) 、cmp (compare, 比 
较 ) 以 及 call (调用 ) 等 。 与 高 级 语言 中 的 变量 不 同 ， 汇 编 语 言 采用 少数 几 个 固定 的 寄存 器 来 保存 数据 ， 例 如 ，Intel 处 理 器 的 
eax 或 edx 宵 存 器 ， 以 及 ARM 处 理 器 的 r0 至 r15 等 家 存 器 。 在 大 多 数 情况 下 ， 其 中 的 某 一 个 寄存 器 (eax 或 r0) 会 用 来 表示 国 数 的 
返回 值 。 写 在 方 括号 里 的 值 表 示 内 存 地 址 ， 这 种 写法 用 来 访问 该 地 址 中 的 内 容 。 局 部 变量 与 例 程 参数 ， 是 根据 其 与 栈 中 某 个 内 存 
地 址 之 间 的 偏 移 量 来 访问 的 ， 这 个 参照 地 址 ， 称 为 frame pointer ( 帧 捐 针 ) 寄 仔 器 (也 融 是 ebp 寄 仔 器 或 fp 寄 仔 器 ) 。 我 们 可 
以 通过 push 及 pop 指 令 ， 或 是 通过 修改 帧 指针 的 值 来 对 栈 进行 操作 。 人 循环 是 通过 跳 转 指令 来 实现 的 ， 也 就 是 说 ， 其 尾部 会 出 现 
jmp 或 b (代表 branch， 转 入 分 支 ) 指令 ， 以 便 跳 转 到 开头 。 如 果 想 实现 有 条 件 的 操作 ， 那 就 先 用 cmp 指 令 来 比较 两 个 值 ， 然 后 
根据 比较 的 结果 来 执行 条 件 跳 转 指 令 (例如 ，jle 指 令 会 在 小 于 或 等 于 的 情况 下 进行 跳 转 、ble 指 令 会 在 小 于 或 等 于 的 情况 下 转 入 
DX) 。 浮 点 操作 采用 另外 一 套 寄存 器 和 与 之 对 应 的 一 套 指令 来 实现 。 


程序 清单 4.2 ”一 个 简单 的 C 语 言 循环 计数 程序 


#include <stdio.h> 
main() 
{ 
int i; 
for (i = 0; i < 10; i++) 
print xan". i); 
return 0; 


程序 清单 4.3 ”用 AT&T 语 法 对 上 述 C 语 言 程序 进行 编译 所 得 到 的 ARM 汇 编 代码 


. Section .rodata @ Data area 
.align 2 @ Align on even memory address 
.LCO: .asc11 "%d\012\000" @ Printf format string 
. text @ Code area 
.global main @ Export main 
main: @ Entry point of main 
stmfd sp!, {fp, Ir} @ Function entry boilerplate 


add fp, sp, #4 
sub sp, sp, #8 


branch to loops top 

Set r3 to zero 

Zero r0 as main's return value 
Function exit boilerplate 


mov r3, #0 

mov ro. r3 

sub sp, fp, #4 

1dmfd sp!, {fp, pc} 
.L4: „word .LCO 


mov r3, #0 @ Set register r3 to zero 
str r3, [fp, #-8] @ Store register r3 into 1 
b A @ Branch to loop's end 
| E i Q Loop's top label 
Idr ra... «L4 @ Get printf format address 
mov O Gs @ Set format as first argument 
Idr rl, [fp, #-8] @ Set 1 as second argument 
bi printf @ Call printf 
Idr r3, [fp, #-8] @ Get 1 into register r3 
add r3, r3, #1 @ Increment r3 by one 
str r3, [fp, #-8] @ Store register r3 into i 
be Q Loop's end label 
Idr r3, [fp, #-8] @ Get 1 into register r3 
cmp r3, #9 @ Compare r3 with 9 
ble .L3 @ If less or equal then 
@ 
@ 
@ 
@ 


© 


Address of printf format arg 


程序 清单 4.4 用 Intel 语 法 对 上 述 C 语 言 程序 进行 编译 所 得 到 的 x86 汇 编 代 码 


_DATA SEGMENT ' Data area 


$SG2748 DB ‘'%d', OaH, OOH ; printf format string 
_DATA ENDS 
PUBLIC _main ; Export main 
EXTRN _printf:PROC ; Import printf 
_TEXT SEGMENT ; Code area 
_1$ = -4 ; Stack offset where i is stored 
_main PROC 
push ebp ; Function entry boilerplate 
mov ebp, esp 
push ecx 
mov DWORD PTR _i$[ebp], 0; 1 =00 
jmp SHORT $LN3@main ; Jump to loop's end 
$LN2@main: ; Loop's top label 
mov eax, DWORD PTR _i$[ebp] ; Get 1 into register eax 
add eax, 1 ; Increment by one 


mov DWORD PTR _i$[ebp], eax ; Store eax back to i 
$LN3@main: ; Loop's end label 
cmp DWORD PTR _i$[ebp], 10 ; Compare 1 to 10 
jge SHORT $LN1@main ; If greater or equal 
; terminate loop 
mov ecx, DWORD PTR _i$[ebp] ; Get i into register ecx 


push ecx ; Push ecx as argument to printf 
push OFFSET $SG2748 ; Push printf format string 
; argument 
call _printf ; Call printf 
add esp, 8 ; Free pushed printf arguments 
jmp SHORT $LN2@main ; Jump to loop's top 
$LN1@main: ; Loop's exit label 
xor eax, eax ; Zero eax aS main's return value 
mov esp, ebp ; Function exit boilerplate 
pop ebp 
ret 0 
_main ENDP 
_TEXT ENDS 


END 


用 Visual Studio 做 开发 时 ， 可 以 通过 Debug-Windows-Disassembly 菜 单 或 Alt-8 键 打开 一 个 窗口 ， 以 查看 反 汇编 之 后 的 代 
码 ， 并 使 用 与 step-into 及 step-over 相 对 应 的 快捷 键 来 进行 单 步调 试 ， 还 可 以 通过 Debug-Windows-Registers 菜 单 或 Alt-5 键 查 
看 寄存 器 的 值 。 用 gdb 调 试 程序 时 ， 可 以 执行 display/i$pc 命 令 ， 以 便 在 每 一 步 的 调试 过 程 中 显示 出 有 反 汇 编 之 后 的 指令 ， 然 后 ， 
可 以 用 stepi 及 nexti 命 令 来 单 步调 试 。 你 可 以 通过 info registers 命 令 查 看 寄存 器 的 值 ， 也 可 以 通过 display$r0 或 display$eax 这 样 
的 命令 来 持续 地 显示 有 某 个 具体 的 寄 人 存 器 。 如 果 用 Eclipse 做 开 友 ， 那 么 可 以 安 和 bytecode 揪 件 ， 以 显示 反 汇 编 后 的 JVM 字 节 码 。 


通过 查看 寄存 器 的 值 ， 也 可 以 了 解 销 数 中 的 return 语 句 所 计算 出 来 的 返回 值 。 只 需要 在 消 数 即将 返回 到 其 调用 方 的 时 候 ， 把 
相关 寄存 器 的 值 显示 出 来 束 可 以 了 。 请 注意 ， 如 果 冰 数 要 返回 的 对 象 比 寄存 器 大 ， 那 么 它 通 常会 把 该 对 象 返 回 到 栈 中 。 


熟悉 计算 机 的 内 部 表示 形式 ， 也 可 以 帮助 你 更 好 地 进行 底层 调试 工作 。 如 果 程 序 会 从 磁盘 或 其 他 进程 里 面 读 取 二 进 制 数 据 ， 


那么 我 们 可 以 检视 对 应 的 内 存 ， 以 查看 这 些 数据 的 内 容 。 用 Visual Studio 做 开发 时 ， 可 以 通过 Debug-Windows-Memory 菜 单 
或 Alt-6 键 来 开局 一 个 显示 内 人 存 数据 的 窗口 ， 然 后 在 其 地 址 栏 中 ， 输 入 你 要 查看 的 那个 缓冲 区 数组 的 名 称 ， 或 是 输入 一 个 像 
&structure variable 这 样 ， 可 以 产生 内 人 存 地址 的 表达 式 。 你 也 可 以 在 显示 内 存 数据 的 区 域 右 击 鼠 标 ， 并 指定 待 查 数据 的 尺寸 及 
类 型 (例如 ，4 字 节 的 有 符号 整数 ) 。 用 Eclipse 做 开发 时 ， 可 以 通过 Window-Show View-Other-Debug-Memory 菜 单 来 打开 
与 之 类 似 的 memory monitors 功 能 ， 然 而 这 个 功能 似乎 并 不 适用 于 Java 程 序 。 用 gdb 调 试 程序 时 ， 可 以 用 X/ 形 式 的 命令 来 查看 
内 存 ， 我 们 在 Xx/ 后 面 写 上 需要 查看 的 元 素数 量 、 与 打印 格式 相对 应 的 字符 、 每 个 元 素 的 大 小 以 及 内 存 区 块 的 地 址 。 比 

如 ，x/10xb&a 命 令 会 以 字 忆 (命令 中 的 b 表 示 字 证 ) 为 单位 ， 用 十 六 进 制 (命令 中 的 第 二 个 x 表示 十 六 进 制 ) 显示 出 a 中 的 10 个 
元 素 。 


查看 数据 在 内 存 中 的 表示 形式 时 ， 有 一 个 地 万 需要 注意 ， 那 就 是 : 同一 个 整数 可 以 用 两 种 顺序 来 保存 。 第 一 种 叫做 小 端 序 
(little-endian， 小 端 在 前 ) 格式 ， 也 就 是 先 保存 最 低 有 效 字 节 (least significant byte) ， 然 后 依次 保存 权重 较 高 的 字 节 。 
Intel 架 构 以 及 大 多 数 ARM CPU， 都 采用 这 种 格式 。 如 果菜 个 整 效 变量 的 值 是 0x76543210， 那 么 它 在 内 人 存 中 融会 表示 成 : 


0x10 0x32 0x54 0x76 


Fo FPRSTUAU Ame (big-endian， 大 端 在 前 ) 格式 ， 也 称 为 网 络 序 格式 。 只 有 SPARC 及 PowerPC 等 较为 少见 的 CPU 架 
构 才 会 采用 这 种 格式 。 然 而 该 格式 依然 是 值得 注意 的 ， 因 为 TCP/IP 等 重要 的 Internet 协 议 ， 会 采用 这 种 格式 来 表示 数据 ， 而 且 
Java 在 读 取 和 写 入 二 进 制 数据 时 ， 也 会 采用 这 种 格式 来 进行 操作 。 同 样 一 个 整数 变量 ， 如 果 改 用 这 种 格式 来 表示 ， 那 么 它 在 内 存 
中 就 会 瑟 为 : 


0x76 0x54 0x32 0x10 


. 查看 反 汇 编 后 的 机 器 指令 ， 以 了 解 程序 代码 的 底层 运作 方式 。 
. 查看 eax 或 10 和 寄存器 ， 以 了 解 函 数 的 返回 值 。 


` 查看 数据 在 内 存 中 的 表示 形式 ， 以 了 解 其 在 底层 的 存储 方式 。 


第 5 章 ”编程 扩 林 


开发 者 所 遇 到 的 大 多 数 故 障 ， 都 与 软件 代码 有 关 。 要 想 找到 与 这 些 故障 相对 应 的 程序 缺陷 ， 其 中 一 个 办 法 ， 就 是 在 革 些 机 抽 
的 帮助 之 下 仔细 审视 程序 的 代码 。 
第 38 条 : 对 可 疑 的 代码 进行 评审 ， 并 于 工 演练 这 些 代码 


为 了 锁定 算法 中 的 bug， 我 们 通 弟 会 仔细 审视 这 些 代码 ， 或 用 手 算 的 办 法 来 推演 其 执行 效果 ， 以 验证 其 编写 方式 以 及 目 己 对 
这 段 代 码 的 理解 是 否 正确 。 如 果 在 审视 代码 的 过 程 中 找到 了 错误 ， 那 么 这 个 任务 就 算 完 成 了 ， 若 是 找 不 到 ， 则 可 以 用 调试 器 来 执 


行 这 段 代 码 (参见 第 29 条 ) ， 看 看 它 企 计算 机 上 的 实际 运行 效果 与 你 所 认为 的 效果 之 间 有 什么 区 别 。 


在 第 一 轮 的 查看 过 程 中 ， 要 仔细 观察 每 一 行 代码 ， 看 看 其 中 有 没有 单 见 的 错误 。 其 实 ， 开 妈 者 只 需要 遵循 适当 的 编程 约定 
(例如 ， 通 过 添加 括号 来 厘清 运算 符 之 间 的 优先 级 ) ， 融 可 以 避免 很 多 常见 的 错误 ， 即 便 出 了 错 ， 也 可 以 通过 静态 分 析 工 具 把 它 
们 找 出 来 〈 参 见 第 51 条 ) 。 然 而 ， 还 是 有 一 些 错误 会 漏 过 去 ， 尤 其 是 那些 没有 遵守 编程 约定 的 代码 。 需 要 关注 的 错误 包括 : 操 
作 符 的 优先 级 有 误 (位 操作 需要 特别 注意 ) 、 缺 少 必 要 的 括号 和 break 语 句 、 (在 控制 语句 后 面 ) 多 写 了 分 号 、 把 比较 操作 误 写 
为 赋值 操作 、 没 有 对 变量 进行 初始 化 或 将 其 初始 化 为 错误 的 值 、 循 环 中 缺少 必要 的 语句 、 比 正确 的 结果 多 1 或 少 1 (off-by-one 
error) 、 类 型 转换 错误 、 缺 少 必要 的 方法 、 拼 写 错误 ， 以 及 与 特定 编程 语言 有 关 的 陷阱 。 


如 果 要 手工 执行 代码 ， 那 就 准备 一 张 日 绝 ， 在 上 面 写 出 天 键 变量 的 名 称 ， 然 后 按照 计算 机 运行 这 段 程序 时 所 及 用 的 顺序 来 执 
行 这 些 语句 (参见 图 5.1) 。 变 量 的 值 如 果 发 生 了 变化 ， 那 束 划 掉 旧 值 并 写 上 新 值 。 为 了 修改 起 来 方便 ， 我 们 应 该 用 铅笔 写 这 些 
值 。 
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是 fsck 程 序 的 先驱 


可 以 拿 一 个 计算 器 过 来 〈 是 真 的 计算 器 ， 不 是 计算 机 里 的 计算 器 程序 ) ， 帮 你 迅速 求解 那些 复杂 的 表达 式 。 如 果 要 做 位 运 
S, 那么 可 以 考虑 使 用 程序 员 专 用 的 计算 器 。 不 要 用 计算 机 软件 来 辅助 这 个 手 算 的 过 程 ， 因 为 该 过 程 最 需要 的 就 是 专注 ， 如 果 你 
忌 是 想 把 变量 往 电 子 表格 里 面 写 ， 忌 是 想 用 编辑 器 来 浏览 代码 ， 忆 是 想 去 检查 有 没有 新 的 电子 邮件 ， 那 么 你 的 专注 程度 束 会 下 


如 果 代 码 会 操作 一 些 复杂 的 数据 结构 ， 那 就 用 线条 、 万 框 、 圆 圈 和 箭头 来 表示 这 些 情 况 。 你 需要 构想 一 套图 示 ， 以 便 将 算法 
中 最 重要 的 那些 部 分 画 出 来 。 比 如 ， 人 在 表示 区 间 的 时 候 (很 多 算法 都 会 在 区 间 上 面 犯错 ) ， 可 以 用 方 括号 形式 的 线条 来 表示 区 间 
中 闭合 的 那 一 端 (很 多 程序 所 用 的 区 间 ， 其 起 始 端 都 是 闭合 的 ) ， 用 圆 括 号 形式 的 线条 来 表示 区 间 中 开放 的 那 一 端 ! ]。 把 程序 中 
你 所 关注 的 那 一 部 分 调用 关系 (也 就 是 那 一 部 分 例 程 之 间 的 相互 调用 情况 ) 画 出 来 ， 通 单 也 是 很 有 用 的 。 如 果 熟 悉 UML， 那 残 


按照 UML 规 学 来 画图 ， 但 是 请 别 在 图 示 上 面 耗 费 过 多 的 时 间 ， 你 需要 在 绘图 的 方便 程度 与 它 的 表 划 能 力 之 间 求 得 平衡 。 


拿 一 张 比较 大 的 纸 来 画 ， 这 样 可 以 画 出 更 多 的 内 容 。 也 可 以 考虑 男 在 日 板 上 面 ， 它 的 空间 要 比 一 般 的 纸 更 大 ， 而 且 便于 探 
除 ， 也 有 利于 多 人 讨论 。 用 不 同 的 颜色 来 区 分 图 中 的 各 类 元 素 。 如 果 你 画 的 这 张 图 很 重要 ， 那 就 把 它 扣 下 来 ， 并 关联 到 对 应 的 事 
务 上 面 。 


还 有 一 种 更 高 级 的 玩法 ， 是 在 绘图 的 过 程 中 操作 一 些 实物 ， 例 如， 日 板 上 的 磁铁 、 回 形 针 、 牙 签 、 记 事 贴 、 棋 子 或 乐高 积 
木 。 这 种 做 法 融入 了 三 维 视 锅 、 和 触 苋 以 及 本 体感 禹 (proprioception， 使 你 感 免 到 身体 的 每 个 部 分 都 在 什么 地 方 ) 等 因素 ， 可 
以 令 你 更 加 深入 地 投入 到 正在 研究 的 问题 中 。 在 研究 队列 、 人 分组、 协议 、 评 级 以 及 优先 度 等 问题 时 ， 可 以 采用 这 种 办 法 。 但 是 别 
玩 得 太 入 迷 了 ， 这 些 物 品 的 主要 功能 应 该 是 帮助 你 进行 调试 工作 。 

l 

BK AL ALAR IL BR 

. 手工 执行 代码 ， 以 验证 其 是 否 正确 。 

` 通过 绘图 来 解析 复杂 的 数据 结构 。 

. 在 大 型 的 纸张 和 白板 上 面 ， 通 过 各 种 颜色 的 图 示 来 演算 复杂 的 问题 。 


. 在 绘图 的 过 程 中 操作 实物 ， 以 便 更 深 地 投入 到 正在 研究 的 问题 中 。 


[1] 闭合 端 (closed end) 表示 该 区 间 包 含 端 点 值 ， 开 放 端 (openend) 表示 该 区 间 不 包含 端点 值 。 译 者 注 


第 39 条 : 审读 代码 并 与 同事 讨论 


RRS (rubber duck technique) 可 能 是 本 书 里 面 的 最 有 效 办 法 了 ， 你 运用 这 个 办 法 的 次 数 越 多 ， 效 果 束 越 好 。 它 要 
求 你 把 代码 的 工作 原理 解释 给 别人 听 。 解 释 到 一 半 的 时 候 ， 你 通常 就 会 惊 叫 : “哎呀 ， 我 怎么 这 么 傻 ， 我 知道 问题 出 在 哪 
了 ! ”能 喊 出 这 句 话 ， 说 明 你 并 不 答 ， 因 为 你 找到 的 这 个 问题 并 不 是 那 种 单纯 由 于 玖 忽而 造成 的 错误 。 在 向 同事 解释 代码 的 过 程 
中 ， 你 大 脑 中 活跃 的 那个 部 位 与 编写 代码 时 所 用 的 部 位 不 同 ， 这 令 你 能 够 把 当时 友 现 不 了 的 问题 给 找 出 来 。 在 大 多 数 情况 下 ， 你 
的 同事 其 实 只 扮演 了 一 个 很 小 的 角色 ， 这 就 是 该 技术 叫 橡 皮 鸭 的 原因 ， 也 就 是 说 ， 即 便 你 对 着 橡皮 上 胸 去 解释 ， 也 依然 能 够 有 效 地 
感觉 到 代码 中 的 问题 。 (维基 百科 的 rubber duck debugging 词 条 里 面 有 一 张 照 片 ， 真 的 就 是 一 只 小 黄 鸭 坐 在 键盘 上 面 。) 


在 你 与 同事 之 间 还 有 一 种 惠 有 意义 的 交流 万 式 ， 那 就 是 评审 代码 。 这 是 一 种 更 为 正规 的 流程 ， 它 要 求 同 事 必须 仔细 阅读 代 
码 ， 指 出 其 中 的 所 有 问题 ， 包 括 代 码 风 格 、 代 码 注 释 、API 的 使 用 、 设 计 以 及 逻辑 等 万 面 的 错误 。 某 些 公 司 特 别 看 重 这 项 技术 ， 
要 求 开发 者 在 把 代码 集成 到 产品 分 支 之 前 ， 必 须 先 做 代码 评审 。Gerrit 等 工具 可 以 用 来 分 享 同事 对 代码 所 做 的 评论 ，GitHub 也 
提供 了 代码 评论 功能 ， 这 些 都 是 很 有 用 的 ， 它 们 使 你 能 够 对 评审 意见 做 出 回应 ， 并 把 每 一 条 意见 的 处 理 方式 记录 下 来 。 


在 评审 代码 的 过 程 中 ， 要 注意 礼节 。 不 要 把 评审 意见 当成 对 你 个 人 的 批评 ， 即 便 他 们 说 得 很 难听 ， 你 也 不 要 那样 想 ， 你 应 该 
把 这 当成 提升 代码 质量 的 契机 。 要 尽力 应 对 每 一 条 意见 ， 即 便 有 些 意见 说 得 不 对 ， 你 也 应 该 重视 ， 因 为 这 表示 你 没有 把 代码 写 清 
楚 ， 从 而 引起 别人 误解 。 如 果 你 激 请 别人 来 评审 你 的 代码 ， 那 你 也 应 该 去 评审 他 们 的 代码 ， 并 且 要 用 积极 、 专 业 而 礼 通 的 方式 去 
评审 。 不 要 把 代码 放 在 那里 迟 迟 不 评审 、 不 要 专 挑 一 些小 问题 而 回避 更 大 的 问题 ， 也 不 要 在 评审 过 程 中 发 生 不 愉快 的 事情 ， 这 些 
都 会 减损 代码 评审 所 带 来 的 好 处 ， 


如 果 在 某 个 涉及 多 方 的 算法 里 面 出 现 了 难以 解决 的 问题 ， 那 么 可 以 用 角色 扮演 的 方式 来 演练 。 比 如 ， 如 果 要 调试 某 个 通信 协 
议 ， 那 你 就 来 扮演 其 中 的 一 方 ， 让 你 的 同事 扮演 另外 一 方 ， 两 个 人 轮流 做 出 举动 ， 试 着 破坏 这 个 协议 (或 斌 着 使 其 能 够 正常 运 
作 ) 。 这 个 办 法 也 可 以 用 在 其 他 一 些 领 域 ， 如 安全 问题 (你 们 可 以 玩 Bob and Alice 的 游戏 上册) 、 人 机 交互 以 及 工作 流 等 。 你 可 
以 用 某 些 物体 来 表示 “编辑 ”操作 ， 并 在 同伴 之 间 传 递 这 个 标记 。 演 练 的 时 人 息 ， 只 要 把 意思 表达 出 来 就 行 ， 不 用 专门 打扮 ， 那 样 
做 显得 有 些 过 头 。 

要 点 
. 把 代码 解释 给 小 黄 鸭 听 。 


- 做 好 代码 评审 工作 。 


` 通过 角色 扮演 来 对 涉及 多 方 的 问题 进行 调试 。 


[1] 客 码 学 范例 经 第 通过 这 两 个 角色 之 间 的 交流 来 进行 讲解 和 演练 。 译 者 注 


第 40 条 : 给 软件 添加 调运 机 制 


如 果 你 能 够 告诉 程序 它 正 在 接受 调试 ， 那 么 程序 束 有 可 能 反 过 来 主动 协助 你 的 调试 工作 。 为 此 ， 你 需要 构建 一 套 机 制 ， 以 开 
启 调试 模式 ， 并 且 要 编写 相应 的 代码 来 实现 该 模 式 。 大 家 可 以 考虑 及 用 下 面 这 几 种 办 法 来 使 软件 进入 调试 模式 : 


+ 通过 编译 软件 时 所 用 的 选项 来 决定 软件 是 否 进 入 调试 模式 ， 例 如， 编写 C/C++ 代码 时 ， 就 可 以 定义 DEBUG 常 量 ， 并 根据 


该 常量 的 值 来 进行 决策 。 


通过 命令 行 选项 来 决定 软件 是 否 以 调试 模式 运行 。 例 如 ，Unix 系 统 的 SSH 守 护 进 程 命令 (sshd) 就 提供 了 -d 选 项 ， 其 他 很 


多 程序 也 提供 有 类 似 的 选项 。 
` 给 进程 发 送信 号 (signal) ， 令 其 进入 调试 模式 。 旧 版 的 BIND 域 名 服务 器 就 是 这 么 做 的 。 


` 通过 命令 打开 调试 模式 (这 种 命令 可 能 不 会 写 在 开发 文档 中 ) 。 例 如 ， 通 过 某 种 很 少见 的 按键 组 合 来 开 语 。 (在 菜 些 版 本 
的 Android 系 统 上 面 ， 连 续 单 击 七 次 build number (版 本 号 ) 菜单 ， 就 可 以 开启 USB 调 试 模 式 。) 


为 了 防止 自己 不 小 心 把 调试 版 的 软件 友 布 到 生产 环境 中 ， 或 是 在 生产 环境 里 面 无 意 间 开启 调试 模式 ， 你 应 该 在 调试 模式 局 用 
的 时 候 ， 给 软件 添加 显 闭 的 标识 。 程 序 进入 调试 模式 之 后 ， 我 们 可 以 通过 编写 程序 代码 来 命令 它 做 很 多 的 事情 。 


首先 ， 可 以 命令 软件 把 执行 过 的 动作 记录 下 来 ， 使 得 我 们 能 够 在 友 生 某 种 事件 时 得 到 通知 ， 并 于 稍 后 回顾 各 种 事件 的 友 生 顺 
Fr (参见 第 56 条 和 第 41 条 ) 。 


对 于 交互 式 程序 以 及 市 有 图 形 界 面 的 程序 来 品 ， 我 们 还 可 以 在 屏幕 上 显示 更 多 的 信息 ， 或 是 对 已 经 显示 出 来 的 信息 进行 补 
充 。 比 如 ，Minecraft 洲 戏 在 进入 调试 模式 (参见 图 5.2) 之 后 ， 束 会 在 屏幕 上 面 国 加 显示 一 些 性 能 指标 (每 秒 帧 数 、 已 经 使 用 的 
内 存量 、CPU 负 载 ) 、 玩 家 数据 (in DA, AE) 以 及 操作 环境 的 配置 情况 (JVM、 显 示 技 术 、CPU 类 型 ) 。 此 
外 ，Minecraft 还 能 够 在 调试 模式 下 查看 整个 游戏 世界 ， 它 会 以 平面 布局 的 方式 ， 把 游戏 中 的 各 种 物体 全 都 显示 出 来 。 在 泻 染 程 
序 中 ， 我 们 可 以 把 物体 的 每 个 面 或 贝 塞 尔 曲 线 的 每 个 控制 点 显示 出 来 。 在 Web 程 序 里 面 ， 我 们 也 可 以 多 显示 一 些 有 用 的 数据 ， 
比如 ， 当 妃 标 悬 停 于 对 应 的 元 素 上 面 时 ， 可 以 把 该 产品 在 数据 库 中 的 ID 显 示 出 来 。 


软件 进入 调试 模式 之 后 ， 可 以 局 用 其 他 一 些 命令 。 这 些 命令 或 计 可 以 通 行 界面 、 额 外 的 菜单 或 某 个 URL 来 访问 。 我 们 
已 们 ， 那 么 操作 起 来 会 比较 困难 ) 、 把 数 


也 可 以 实现 一 些 命令 ， 用 来 展示 并 修改 复杂 的 数据 结构 (如 果 改 用 调试 器 来 显示 并 修改 它 
据 转 存 到 文件 中 以 供 后 续 处 理 ， 把 程序 切换 到 一 种 有 利于 排查 错误 的 状态 ， 或 是 执行 我 们 在 这 部 分 所 讲述 的 其 他 操作 。 
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图 5.2 ”处 在 调试 模式 的 Minectaft 游 戏 所 显示 出 的 信息 (上 ) ， 以 及 调试 模式 之 下 的 游戏 世界 CF) 


调试 模式 还 可 以 提供 一 个 相当 强大 的 功能 ， 那 就 是 令 软 件 进 入 特定 的 状态 。 比 如 ， 在 一 个 向 导 式 的 程序 界面 中 ， 我 们 要 对 第 


7 步 进行 调试 。 如 果 有 了 状态 切换 功能 ， 那 么 调试 工作 丈 会 变 得 简单 一 些 ， 因 为 我 们 不 用 再 执行 前 面 6 步 了 ， 而 是 可 以 直接 通过 
捷径 跳 到 第 7 步 ， 程 序 可 能 会 用 一 些 较 为 合理 的 默认 值 来 处 理 前 面 那 6 个 步 又 。 对 于 游戏 来 说 ， 也 可 以 实现 类 似 的 调试 功能 ， 使 
得 开 友 者 能 够 直接 升 到 比较 高 的 级 别 上 面 (这 样 一 来 ， 你 就 不 能 在 调试 过 程 中 以 升级 为 借口 来 玩 游戏 了 ) ， 或 是 直接 拥有 某 项 难 
以 获得 的 能 力 。 


进入 调试 模式 之 后 ， 可 以 提升 程序 的 透明 度 或 简化 程序 在 运行 时 的 行为 ， 使 我 们 能 够 更 加 容易 地 锁定 那些 有 待 调试 的 故障 。 
比如 ， 有 些 程序 本 来 应 该 是 在 后 台 静 默 执行 的 〈 这 种 程序 在 Unix 系 统 中 叫做 daemon (守护 进程 ) ， 在 Windows 系 统 中 叫做 
service (服务 ) ) ， 然 而 开局 了 调试 模式 之 后 ， 它 会 把 那些 操作 拿 到 前 台 来 做 ， 并 且 会 在 屏幕 上 输出 一 些 信息 。 (Unix 的 sshd 
守护 进程 ， 丈 是 个 典型 的 例子 。) 如 果 程序 平常 会 开局 多 个 线程 ， 那 么 现在 丈 可 以 只 用 一 个 线程 ， 以 利于 我 们 调试 那些 和 并 发 无 
天 的 问题 。 此 外 ， 也 可 以 把 复杂 而 成 熟 的 算法 改 为 简单 而 原始 的 算法 、 把 用 来 提升 程序 性 能 的 那些 辅助 操作 去 揉 、 用 同步 的 AP| 
来 取代 异步 的 API1， 或 是 用 内 巷 的 轻 量 级 应 用 程序 服务 器 或 数据 库 来 取代 外 部 的 产品 。 


运行 在 某 些 骨 入 式 设 备 或 服务 器 上 面 的 软件 是 没有 用 户 界 面 的 ， 对 于 这 些 软件 来 说 ,我们 可 以 考虑 在 调试 模式 中 展示 更 多 的 
界面 和 接口 ， 例 如 ， 可 以 提供 命令 行 界面 ， 以 便 输 入 调试 所 用 的 命令 ， 并 查看 其 运行 结果 。 对 于 骨 入 式 设 备 来 说 ， 我 们 可 以 通过 
一 个 只 在 调试 模式 之 下 局 用 的 串 行 连接 来 运行 这 样 的 界面 ， 例 如 ， 某 些 数 字 电 视 束 可 以 通过 USB 接 口 来 进行 这 样 的 调试 。 如 果 应 
用 程序 运行 在 联网 的 环境 中 ， 那 么 可 以 开启 一 个 像 libmicrohttpd 这 样 的 小 型 宜 入 式 HTTP 服 务 嚣 程序， 以 便 将 应 用 程序 的 关键 细 
广 显 示 出 来 ， 并 使 得 我 们 可 以 通过 它 来 执行 一 些 调试 命令 。 


调试 模式 还 可 以 帮 我 们 模拟 与 外 部 因素 有 关 的 错误 。 这 些 错误 通 弟 都 是 出 现 概 率 很 低 的 事件 ， 需 要 通过 繁杂 的 手段 才能 够 模 
拟 出 来 ， 然 而 如 果 能 在 调试 模式 里 面 提供 一 些 命令 ， 那 么 束 可 以 较为 容易 地 模拟 出 这 些 情况 了 ， 例 如 ， 可 以 通过 调试 命令 来 模拟 
网 络 随机 丢 包 、 数 据 无 法 写 入 磁盘 、 无 线 信 号 衰减 、 实 时 时 钟 功能 错乱 以 及 智能 卡 读 卡 器 配置 不 当 等 情况 。 


最 后 ， 我 们 还 可 以 在 调试 模式 中 执行 罕见 的 代码 路 径 。 也 融 是 这， 我 们 不 按照 较 优 的 那 条 路 径 来 执行 ， 而 是 修改 程序 的 配 
置 ， 令 其 走 入 另外 一 条 执行 路 径 。 比 如 ， 如 果 有 一 个 用 来 处 理 用 尸 输入 的 内 存 组 ;中 区 ， 其 初始 空间 是 1KB， 每 次 填 满 后 扩充 为 原 
来 的 两 倍 ， 那 么 在 调试 这 个 程序 时 ， 我 们 残 可 以 把 缓冲 区 的 初始 空间 从 1KB 降 为 1 个 字 节 ， 迫 使 程序 更 为 频繁 地 进行 重新 分 配 ， 
以 观察 并 修复 其 在 这 个 过 程 中 所 表现 出 的 bug。 在 其 他 情况 下 ， 也 可 以 采用 类 似 的 手法 来 调试 ， 如 故意 减 小 哈 希 表 的 容量 ， 以 观 
察 程 序 在 哈 希 表 ; 益 出 时 的 行为 ， 或 是 故意 把 缓存 缓冲 区 设置 得 很 小 ， 以 观察 程序 在 缓存 已 满 时 ， 会 采用 什么 样 的 策略 来 挑选 并 蔡 
换 需 要 丢 芥 的 绥 存 条 目 。 


要 点 
. 给 程序 添加 一 个 选项 ， 令 其 能 够 进入 调试 模式 。 


- 添加 相应 的 调试 命令 ， 使 调试 者 能 够 操控 程序 的 状态 、 记 录 其 所 执行 的 操作 、 降 低 其 在 运行 时 的 复杂 程序 、 迅 速 在 其 用 户 
界面 之 间 跳 转 ， 并 展示 复杂 的 数据 结构 。 
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` 在 调试 模式 下 通过 一 些 命令 来 模拟 那些 与 外 部 因素 有 关 的 错误 。 


BAR: AMINES) 


日 志 (log) 语句 令 我 们 能 够 追 味 并 理解 程序 的 执行 过 程 (参见 第 56 条 ) ， 这 些 语句 通常 会 把 消息 友 送 给 输出 设备 (例如 ， 


程序 的 标准 错误 端 、 控 制 从 或 打印 机 ) ， 或 将 其 保存 在 某 个 地 万 例如， 文件 或 数据 库 中 ) , LUA Ra. ASX 
Bam, 我 们 殊 可 以 通过 查看 其 内 容 来 寻找 当前 这 个 问题 的 根源 。 


有 人 认为 : 只 有 那些 不 会 用 调试 器 的 人 ， 才 会 通过 日 志 语 句 来 调试 程序 。 这 种 说 法 在 某 些 情况 下 是 成 立 的 ， 但 是 日 志 语 句 依 
然 有 几 个 地 方 要 比 调试 器 强 ， 因 此 ， 这 两 种 办 法 之 间 ， 应 该 是 互补 的 关系 。 首 先 ， 我 们 很 容易 残 能 把 日 志 语 句 放 到 程序 中 的 天 键 
点 上 ， 并 且 能 够 根据 需要 ， 把 目 己 所 天 注 的 那 一 部 分 数据 显示 出 来 。 相 反 ， 如 果 采 用 一 般 的 调试 器 进行 调试 ， 那 融 必 须 按照 程序 
的 控制 流 来 执行 ， 并 且 要 手工 拆 解 那些 复杂 的 数据 结构 。 


此 外 ， 我 们 在 调试 器 上 面 投 入 精力 所 获得 的 好 处 ， 可 能 很 快 束 会 消失 ， 因 为 即便 你 把 打印 复杂 数据 结构 时 所 用 的 那 套 配 置 保 
存 到 脚本 文件 中 ， 其 他 的 代码 维护 者 也 依然 有 可 能 无 法 看 到 或 是 很 难 获取 这 份 文件 。 笔 者 页 到 过 一 个 项 目 ， 他 们 在 分 友 源 代码 的 
时 候 ， 还 要 把 调试 器 的 脚本 也 一 起 包 仿 进 去 。 与 之 相反 ， 日 志 语 句 所 造成 的 效果 是 持久 的 ， 因 此 ， 我 们 更 应 该 把 在 调试 器 上 面 所 
投入 的 精力 ， 改 投 到 日 志 语 句 中 ， 以 美化 其 输出 格式 ， 从 而 令 我 们 更 好 地 理解 程序 所 执行 的 操作 ， 进 而 提升 调试 工作 的 效率 。 


最 后 还 有 一 个 好 处 ， 那 融 是 : 只 要 日 志 语 句 编写 得 恰当 (也 束 是 说 ， 要 通过 日 志 框 架 来 写 ， 而 不是 随 兴 地 及 用 printIn 来 
写 ) ， 那 么 它 所 输出 的 内 容 ， 本 身 束 可 以 进行 过 滤 和 查询 。 


大 多 数 编 程 语言 和 和 开 友 框 架 ， 都 有 很 多 种 日 志 程 序 库 可 供 选 用 ， 你 应 该 从 中 选择 一 款 符合 需求 的 库 来 使 用 ， 而 不 要 上 自己 去 重 
新 造 一 个 库 。 需 要 记 入 日 志 的 信息 有 : 天 键 例 程 的 入 口 和 出 口 、 重 要 数据 结构 的 内 容 、 状 态 的 变化 以 及 对 用 户 操 作 所 给 出 的 回应 
等 。 请 注意 ， 这 些 日 志 语 句 不 应 该 在 生产 环境 中 局 用 ， 以 防 程序 性 能 由 于 日 志 数 量 过 多 而 受 损 。 大 多 数 日 志 库 都 提供 了 相应 的 接 
口 ， 令 我 们 可 以 根据 信息 的 重要 程度 ， 从 源头 (EMEETAN) 或 目标 (也 残 是 用 来 记录 日 志 消 息 的 机 制 ) 处 进行 过 
滤 。 如 果 能 够 从 源头 控制 住 日 志 消 息 ， 那 么 它 给 程序 性 能 市 来 的 影响 显然 融会 小 很 多 ， 在 某 些 情况 下 甚 全 可 以 完全 消除 。 我 们 可 
以 在 应 用 程序 里 面 实 现 调试 模式 ， 这 样 残 能 够 根据 需要 来 提升 日 志 的 详细 程度 了 (参见 第 40 条 ) ， 此 外 ， 还 可 以 利用 与 日 志 级 
别 和 沁 围 有 关 的 配置 机 制 来 详细 调整 和 目 己 想 要 看 到 的 那 部 分 日 志 条 目 。 由 于 很 多 日 志 框 以 都 提供 了 这 样 的 配置 机 制 ， 因 此 我 们 只 
需 在 应 用 程序 里 面 直 接 使 用 它 束 可 以 了 ， 而 不 用 再 重 新 开发 一 套 。 


可 供 选 用 的 日 志 记 录 机 制 包 括 Unix 的 syslog 库 (参见 程序 清单 5.1) 、Apple 的 ASL 系 统 日 志 机 制 ( 它 的 功能 较为 先进 ， 参 见 
程序 清单 5.2) 、Windows 的 ReportEvent API (参见 程序 清单 5.3) 、Java 的 java.util.logging 包 (参见 程序 清单 5.4) , UR 
Python 的 logging 模 块 (参见 程序 清单 5.5) 。 其 中 某 些 机 制 的 接口 ， 用 起 来 不 是 特别 容易 ， 因 此 大 家 可 以 参考 下 面 这 些 程序 清 
单 ， 并 迅速 地 将 其 套用 到 你 所 写 的 代码 中 。 如 果 你 想 寻 找 功能 更 为 强大 的 工具 ， 或 是 你 所 在 的 平台 缺乏 标准 的 日 志 记 录 工 具 ， 那 
么 还 可 以 考虑 采用 第 三 方 的 日 志 记 录 机 制 ， 例 如 ，Apache 的 Log4j (适用 于 Java) 以 及 Boost.Log v2 (适用 于 C++) $. 


程序 清单 5.1 用 Unix 的 syslog 接 口 来 进行 日 志 记录 


#include <syslog.h> 


int 

main() 

{ 
openlog("myapp", 0, LOG_USER); 
syslog(LOG_DEBUG, "Called main() in %s", __FILE__); 
closelog(); 

} 


程序 清单 5.2 ”用 Apple 的 AsL 进 行 日 志 记 录 


#include <as|.h> 


int 
main() 
{ 
asl_object_t client_handle = asl_openC"com.example.myapp", 
NULL, ASL_OPT_STDERR) ; 
asl_log(client_handle, NULL, ASL_LEVEL_DEBUG, 
"Called main(Q) in %s", __FILE__); 
asl_close(client_handle) ; 


程序 清单 ?5.3 FAWindowssyReportEventHiauet(s Amick 


#include <windows.h> 
int 

main() 

{ 

LPTSTR IpszStrings[] = { 
"Called main() in file ", 
__FILE__ 

J; 

HANDLE hEventSource = RegisterEventSource(NULL, "myservice") ; 


if (hEventSource == NULL) 
return (1); 


ReportEvent(hEventSource, // handle of event source 
EVENTLOG_INFORMATION_TYPE, // event type 


0 ， // event category 

0, // event ID 

NULL, // current user's SID 

2, // strings in lIpszStrings 
0 ， // no bytes of raw data 
IpszStrings, // array of error strings 
NULL); // no raw data 


DeregisterEventSource(ChEventSource) ; 
return (0); 


程序 清单 5.4 ”用 Java 的 java.util.logging 包 进行 日 志 记 录 


import java.io. IOException; 

import java.util. logging.FileHandler; 
import java.util. logging.Level; 
import java.util. logging.Logger; 


public class EventLog { 
public static void main(String[] args) { 
Logger logger = Logger.getGlobal(); 
// Include detailed messages 
logger.setLevel (Level .FINEST) ; 
FileHandler fileHandler = null; 


try { 

fileHandler = new FileHandler(C"app. log"); 
} catch (IOException e) { 

System.exit(1); 


} 
logger.addHandler(fileHandler); // Send output to file 


logger. fineC"Called main"); 


程序 清单 5.5 ”用 Python 的 logging 模 块 进行 日 志 记 录 
import logging; 
logger = logging.getLogger('myapp' ) 
# Send log messages to myapp. log 


fh = logging.FileHandler(C'myapp. log’) 
logger.addHandler (th) 


logger.setLevel (logging.DEBUG) 
logger.debug('In main module' ) 


此 外 ， 其 他 很 多 编程 框架 ， 也 都 有 各 自 的 日 志 记 录 机 制 。 比 如 ， 如 果 你 采用 lumberjack 协 议 来 记录 日 志 ， 那 么 在 node.js 环 
境 中 ， 融 可 以 考虑 选用 Bunyan 及 Winston 包 ; 在 Unix shell 命 令 行 界面 里 ， 可 以 通过 logger 命 令 把 消息 记 入 日 志 ; 人 在 Unix 内 核 
(及 设备 驱动 ) 里 面 ， 按 照 惯 例 ， 应 该 调用 printk 函 数 来 记录 消息 。 


如 果 程序 运行 在 联网 的 诅 入 式 设 备 上 面 ， 而 那些 设备 的 可 写 文 件 系 统 又 缺乏 足够 的 空间 来 存放 日 志 ( 例 如， 高 端的 电视 机 或 
低 端 的 宽带 路 由 器 ) ， 那 么 可 以 考虑 采用 远程 日 志 技 术 。 我 们 可 以 运用 该 技术 来 配置 家 入 式 设 备 的 日 志 系 统 ， 令 其 将 日 志 条 目 友 
送 给 服务 器 ， 以 便 把 这 些 条 目 存 储 在 服务 器 里 面 。 在 配置 Unix 的 syslogd 时 ， 可 以 通过 下 面 这 个 办 法 ， 把 与 local1 有 关 的 所 有 日 
志 条 目 ， 都 发 送 给 logmaster 主 机 .: 


locall.* @@logmaster.example.com:514 


如 果 你 使 用 的 编程 环境 没有 提供 日 志 记 录 机 制 ， 那 束 必 须 自 己 来 做 了 。 最 简单 的 一 种 日 志 记 录 形 式 ， 是 用 printf 这 样 的 语句 
来 打印 日 志 消 息 : 


printfC"Entering function foo\n"); 


你 或 许 党 得 只 要 用 printf 式 的 语句 把 日 志 消 息 打 印 出 来 束 行 了 ， 于 是 稍 后 会 将 其 删 掉 或 放 在 注释 中 。 笔 者 建议 你 不 要 急 着 这 
么 做 ， 因 为 如 果 你 删 控 了 这 些 语句 ， 那 么 你 编写 它们 时 所 花 的 功夫 就 日 费 了 ; 如 果 你 把 这 些 语句 注释 挥 ， 那 么 它们 丈 不 会 在 后 续 
的 代码 修改 过 程 中 得 到 维护 ， 继 而 会 逐渐 变 得 毫 无 用 处 。 比 较 合适 的 做 法 应 该 是 将 其 纳入 条 件 语句 中 : 


if (loggingEnabled) 
printfC"Entering function foo\n") ; 
除了 采用 打印 消息 的 语句 来 进行 记录 ， 我 们 还 可 以 通过 其 他 一 些 手段 来 记录 应 用 程序 所 执行 的 动作 : 
:在 GUI 应 用 程序 中 ， 可 以 用 弹出 消息 框 。 
- 在 JavaSctipt 代 码 里 面 ， 可 以 把 消息 写 入 控制 台 ， 并 在 浏览 器 的 控制 台 窗 口 里 观察 结果 。 


-在 Web 应 用 程序 中 ， 可 以 把 想 要 输出 的 内 容 ， 以 HIML 注 释 或 可 见 文 本 的 形式 ， 填 充 到 显示 程序 运行 结果 的 那个 HIML 页 
面 里 。 


- 在 无 法 修改 程序 源 代 码 的 情况 下 ， 可 以 试 着 使 程序 打开 一 份 文件 ， 该 文件 的 名 称 就 是 你 想 要 记录 的 那 条 消息 ， 然 后 ， 用 
stftace 来 追踪 这 个 应 用 程序 所 执行 的 系统 调用 ， 并 在 其 中 寻找 刚才 那 份 文件 的 名 称 。 


AA 
` 通过 日 志 记 录 语 名 来 搭建 一 套 可 以 持久 维护 的 基础 调试 平台 。 
- 应 该 用 现 有 的 上 日志 框架 来 记录 ， 而 不 要 去 重新 做 一 套 框 架 。 


. 根据 你 所 关注 的 话题 以 及 你 想 要 记录 的 细节 来 对 上 日志 框架 进行 配置 。 


第 42 条 : 对 软件 进行 单元 测试 


如 果 你 在 调试 过 程 中 ， 友 现 软件 里 面 的 某 个 问题 无 法 通过 单元 测试 表现 出 来 ， 那 融 襄 明 单 元 测试 编写 得 不 到 位 ， 或 是 项 目 中 
根本 没有 包含 针对 该 问题 的 单元 测试 。 为 了 把 这 样 的 问题 隔离 或 捕获 起 来 ， 我 们 可 以 考虑 添加 适当 的 单元 测试 ， 令 问题 得 以 暴 


S5 
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首先 从 最 基本 的 平台 做 起 。 如 果 软 件 还 没有 开始 使 用 单元 测试 框架 ,或 是 采用 了 一 种 不 能 和 直接 支持 单元 测试 的 编程 语言 ， 那 
束 下 载 符合 需求 的 单元 测试 包 (维基 百科 上 面 列 出 了 很 多 单元 测试 框 染 ) ， 并 对 软件 进行 配置 ， 使 其 可 以 使 用 该 测试 包 来 执行 测 
试 。 如 果 项 目 中 不 存在 早 前 写 好 的 测试 ， 那 么 此 时 应 该 调整 构建 配置 (build configuration) ， 把 测试 框架 所 对 应 的 程序 库 包 
含 进来 ， 并 且 在 应 用 程序 的 局 动 代码 中 添加 几 行 语句 ， 使 其 能 够 执行 单元 测试 。 接 下 来 ， 对 开 友 环境 进行 配置 ， 令 其 在 编译 和 提 
人 交 软 件 的 时 候 ， 能 够 目 动 运行 单元 测试 。 把 单元 测试 平台 添加 进来 ， 可 以 给 项 目 市 来 很 多 好 处 ， 例 如 ， 可 以 使 开 友 文档 得 以 改 
进 、 使 集体 所 有 权 总 识 得 以 明确 、 使 重 构 工作 变 得 顺利 ， 并 使 集成 工作 变 得 简单 。 


然后 ， 寻 找 那 些 可 能 与 软件 故障 有 关 的 例 程 ， 并 针对 这 些 例 程 编写 单元 测试 ， 以 验证 其 功能 是 否 正 党 。 我 们 可 以 用 目 顶 向 下 
或 目 底 向 上 的 思路 来 寻找 这 些 待 测试 的 例 程 (参见 第 4 条 ) 。 编 写 测试 用 例 的 时 候 ， 请 试 着 不 要 去 查看 例 程 的 实现 方式， 而 是 去 
查阅 其 接口 文档 ， 如 果 没 有 这 种 文档 (很 多 情况 下 确实 没有 ) ， 那 融 看 看 其 他 代码 是 如 何 调用 这 些 例 程 的 。 这 样 做 可 以 使 你 不 太 
会 把 编写 产品 代码 时 所 用 的 错误 思路 ， 照 搬 到 单元 测试 里 面 。 写 好 的 测试 用 例 ， 应 该 提交 到 软件 的 版 本 控制 系统 里 面 ， 以 便 永久 


成 为 软件 项 目 中 的 一 部 分 。 


现在 举 一 个 例子 。 我 们 来 看 程序 清单 5.6 中 的 这 个 类 ， 它 可 以 在 处 理 文本 的 过 程 中 记录 列 的 位 置 ， 并 且 能 够 把 tab 字 符 ( 制 表 
符 ) 的 标准 行为 也 考虑 进去 。 这 是 个 比较 有 难度 的 工作 : 在 20 世 纪 80 年 代 ， 某 些 终端 机 无 法 正确 处 理 含 有 tab 字 符 的 文本 ， 于 是 
出 现 了 一 些 与 屏幕 输出 有 关 的 程序 库 ， 它 们 会 采用 相关 的 技巧 来 解决 这 类 问题 。 程 序 清 单 3.7 中 的 代码 ， 用 来 局 动 程序 清单 .8 里 
面 的 CppUnit 单 元 测试 ， 以 验证 ColumnTracker 类 的 功能 是 否 正 确 。 


程序 清单 3.6 能够 在 处 理 文本 的 过 程 中 记录 列 位 置 的 C++ 类 


class ColumnTracker { 
private: 

int column; 

static const int tab_length = 8; 
public: 

ColumnTracker() : column(0O) {} 


int position() const { return column; } 


void process(int c) { 

switch (c) { 

case ‘\n': 
column = 0; 
break; 

case ‘\t': 
column = (column / tab_length + 1) * tab_length; 
break; 

default: 
column++; 
break; 


} 
ie 


程序 清单 .7 启动 CppUnit 测 试 套件 的 文本 界面 所 用 的 代码 


#include <cppunit/ui/text/TestRunner.h> 
#include "“ColumnTrackerTest.h" 


int 


main(int argc, char *argv[]) 


{ 
CppUnit::TextUi1::TestRunner runner; 
runner.addTest(ColumnTrackerTest: :suite()); 
runner.run(); 
return 0; 


程序 清单 3.8 ”单元 测试 的 代码 


#include <cppunit/extensions/HelperMacros.h> 
#include "ColumntTracker.h" 


class ColumnTrackerTest : public CppUnit::TestFixture { 
CPPUNIT_TEST_SUITECColumnTrackerTest) ; 
CPPUNIT_TEST(CtestCtor) ; 
CPPUNIT_TEST(CtestTab) ; 
CPPUNIT_TEST(testAfterNewline) ; 
CPPUNIT_TEST_SUITE_END() ; 
public: 
void testCtor() { 
ColumnTracker ct; 
CPPUNIT_ASSERT(Cct.position() == 0); 
} 


void testTab() { 
ColumnTracker ct; 
// Test plain characters 
ct.process('x'); 
CPPUNIT_ASSERT(Cct.position(d) == 1); 
ct.process('x'); 
CPPUNIT_ASSERT(Cct.position() == 2); 
// Test tab 
ct.process('\t'); 
CPPUNIT_ASSERT(Cct.position() == 8); 
// Test character after tab 
ct.process('x'); 
CPPUNIT_ASSERT(Cct.position() == 9); 
// Edge case 
while (ct.position(d) != 15) 
ct.process('x'); 
ct. processC’\t"): 
CPPUNIT_ASSERT(Cct.position() == 16); 
// Edge case 
ct.process('\t'); 
CPPUNIT_ASSERT(Cct.position() == 24); 
} 


void testAfterNewline() { 
ColumnTracker ct; 


ct.process('x'); 
ct.process('\n'); 
CPPUNIT_ASSERT(Cct.position() == 0); 
} 
a 


运行 单元 测试 忆 后 ， 有 问题 的 例 程 融 应 该 可 以 暴露 出 来 了 。 如 果 测 试 并 没有 失败 ， 那 残 需要 扩 ARSE, ENA 
下 ， 还 需要 验证 这 些 测试 本 身 编写 得 是 人 否 正 确 。 如 果 友 生 失 败 的 测试 用 例 有 好 几 个 ， 那 束 先 关注 位 于 依赖 树 底部 的 那些 错误 例 
程 ， 也 残 是 那些 很 少 调用 其 他 例 程 (或 者 说 其 他 客户 端 ) 的 例 程 。 把 有 问题 的 例 程 修复 好 之 后 ， 应 该 再 次 运行 测试 ， 以 确保 所 有 
的 用 例 都 能 够 通过 。 


为 原来 已 有 的 代码 编写 单元 测试 ， 不 是 一 件 十 分 容易 的 事情 ， 因 为 这 与 编写 新 代码 时 的 情形 有 所 不 同 : 我 们 在 编写 新 代码 的 
过 程 中 ， 通 常会 把 测试 用 例 一 起 写 出 来 ， 并 且 会 刻意 用 一 种 便于 测试 的 方式 来 撰写 这 些 新 的 代码 ; 而 面 对 已 有 的 代码 时 ， 为 了 能 
够 通过 单元 测试 来 锁定 其 中 的 可 疑 例 程 ， 我 们 可 能 需要 对 其 进行 重 构 (比如 ， 把 庞大 的 元 泰 拆 解 成 多 个 较 小 的 部 分 ， 并 尽量 缩减 
例 程 之 间 的 依赖 关系 ) ， 使 得 测试 用 例 能 够 更 为 容易 地 调用 这 些 例 程 (参见 第 48 条 ) 。 与 具体 做 法 有 关 的 技巧 ， 不 在 本 书 的 讨 
论 范围 之 内 ，Michael Feathers 所 写 的 《Working Effectively with Legacy Code》[ (Prentice Hall, 2004) 一 书 ， 很 好 地 


. 通过 单元 测试 来 检查 可 疑 的 例 程 ， 以 便 发 现 其 中 的 错误 。 


` 为 了 提升 测试 效率 ， 我 们 要 选用 合适 的 单元 测试 框架 、 要 重 构 产品 代码 ， 使 其 便于 接受 测试 ， 并 且 要 使 测试 的 执行 得 以 自 
动 化 。 


[1] 该 书 中 文 版 《修改 代码 的 艺术 》 已 由 机 械 工 业 出 版 社 引 进出 版 ， 书 号 是 978-7-111-46625-3。 编辑 注 


第 43 条 : 用 断言 进行 调试 


单元 测试 是 一 种 寻找 错误 例 程 的 重要 工具 (参见 第 42 条 ) ， 但 仪 赁 它们 目 身 ， 并 不 能 完成 所 有 的 测 斌 工作。 首先， 单元 测 
试 只 会 告诉 你 某 个 例 程 无 法 通过 测试 ， 它 们 并 不 会 指出 友 生 错 误 的 具体 位 置 。 如 果 例 程 比较 短 ， 那 我 们 只 需要 手工 寻找 错误 丈 可 
以 了 ， 但 如 果 要 调试 的 是 个 复杂 的 算法 ， 则 很 难 把 它 拆 解 为 多 个 目 足 的 小 例 程 。 其 次 ， 有 些 错误 并 不 是 单独 由 某 一 部 分 代码 所 导 
致 的 ， 而 是 在 多 个 代码 块 相 互 集成 的 过 程 中 涌现 出 来 的 。 高 层 的 测试 用 例 可 以 上 友 现 这 些 错 误 ， 但 很 少 能 够 精准 地 锁定 其 原因 。 


这 正 是 应 该 使 用 断言 的 时 候 。 断 言语 句 包含 一 条 Boolean 表 达 陈 ， 如 果 受 测 代码 正确 无 误 ， 那 么 该 表达 陈 的 值 必定 为 真 
(true) 。 如 果 它 的 值 是 假 (false) ， 那么 断言 束 会 失败 ， 受 测 程序 通常 会 以 运行 时 错误 的 形式 终止 执行 ， 并 显示 出 与 本 次 失 
败 有 关 的 数据 。 得 知 断 言语 句 失败 之 后 ， 通 党 可 以 用 调试 器 来 找 出 具体 的 错误 位 置 。 在 代码 中 的 天 键 地 点 放置 断言 语句 ， 可 以 缩 
减 你 所 要 排便 的 泥 围 。 这 种 功效 体现 在 两 个 方面 。 首 先 ， 你 显然 会 天 注 友 生 断 言 失败 的 那 一 部 分 代码 ， 此 外 ， 如 果 你 所 添加 的 某 

些 断 言 没有 失败 ， 那 你 束 可 以 把 那些 代码 从 可 疑 代码 的 范围 中 除去 。 


大 多 数 语 言 都 支持 断言 ， 有 些 是 通过 内 置 的 语句 来 支持 的 ， 如 Java 和 Python， 另 外 一 些 则 通过 程序 库 来 支持 ， 如 C 语 言 。 
为 了 尽量 缩减 由 执行 断言 检查 所 市 来 的 性 能 损失 ， 许 多 编程 环境 都 允许 开 上 友 者 开局 或 天 闭 断 言 功能 。 有 些 语言 需要 人 在 编译 期 进行 
设置 (例如 ， 在 C 和 和 C++ 中， 需要 通过 定义 NDEBUG 宏 来 进行 切换 ) ， 有 些 语 言 则 需要 在 运行 期 进行 设置 (例如 ， 在 用 Java 虚 
拟 机 来 运行 程序 的 时 候 ， 可 以 通过 -enableassertions 或 -disableassertions 选 项 来 开局 或 天 闭 断 言 ) 。 在 开 上 友 环 境 中 运行 代码 
时 ,我 们 一 般 会 开局 断言 检查 功能 ， 而 在 生产 环境 中 运行 代码 时 ， 则 要 考虑 开局 该 功能 所 带 来 的 好 处 和 损失 ， 这 需要 根据 有 具体 情 
况 进 行 权衡 。 


在 对 算法 中 的 代码 进行 调试 时 ， 通 常 可 以 从 前 置 条 件 (precondition， 必 须 满足 这 些 条 件 ， 算 法 才能 够 见效 ) 、 不 变 条 件 
(invariant， 算 法 在 处 理 过 程 中 ， 会 令 已 经 处 理 好 的 那 部 分 数据 满足 这 些 条 件 ) 以 及 后 置 条 件 (postcondition ， 当 算法 根据 规 
范 把 数据 处 理 好 之 后 ， 这 些 条 件 必 然 成 立 ) 这 三 个 方面 进行 思考 (参见 第 3 条 ) 。 一 般 来 说 ， 在 整个 数据 集 里 面 ， 只 有 已 经 由 算 
法 所 处 理 好 的 那 一 部 分 数据 ， 才 会 满足 不 变 条 件 ， 等 到 算法 把 全 部 操作 都 执行 完毕 ， 不 变 条 件 所 涵盖 的 数据 范围 ， 玖 会 变 得 和 后 
置 条 件 一 样 大 了 。 


程序 清单 5.9 中 的 代码 可 以 体现 出 这 种 编程 风格 。 为 了 在 整 型 数组 中 寻找 最 大 的 元 素 ， 这 段 代 码 首先 会 把 max 变 量 设 为 整数 


型 变量 所 能 取 到 的 最 小 值 ， 然 后 依次 与 数组 中 的 每 个 元 素 相 比较 ， 如 果 友 现 元 素 值 比 当前 的 max 大 ， 那 就 把 该 值 赋 给 max 变 量 ， 

最 后 ，max 变 量 中 所 保存 的 值 ， 束 是 整个 数组 中 的 最 大 值 。 我 们 所 要 测试 的 前 置 条 件 是 该 数组 不 为 空 ， 而 且 要 保证 算法 一 开始 所 
选 定 的 那个 最 小 值 ， 确 实 要 小 于 或 等 于 数组 中 的 每 一 个 元 素 。 如 果 有 人 和 在 修改 了 数组 的 类 型 之 后 ， 没 有 对 max 变 量 的 初始 值 做 出 
相应 的 调整 ， 那 么 这 个 前 置 条 件 残 有 可 能 失败 。 算 法 的 主体 部 分 是 一 个 大 循环 ， 该 循环 所 维护 的 不 变 条 件 是 : max 变 量 的 当前 

值 ， 大 于 或 等 于 算法 已 经 处 理 过 的 所 有 元 素 。 如 果 这 个 大 循环 已 经 执行 完了 ， 那 束 意 味 着 数组 中 的 每 一 个 元 素 都 得 天 了 人 处理， 此 
时 ， 算 法 的 不 变 条 件 所 涵盖 的 范围 ， 就 变 得 与 后 置 条 件 相同 ， 而 这 个 后 置 条 件 ， 正 是 该 算法 所 需 满足 的 规范 。 


程序 清单 5.9 ”采用 断言 语句 来 检查 前 置 条 件 、 后 置 条 件 与 不 变 条 件 


class Ranking { 
/** Return the maximum number in non-empty array v */ 
public static int findMax(Cint[] v) { 
int max = Integer.MIN_VALUE; 


// Precondition: v[] is not empty 
assert v.length > 0: "v[] is empty"; 


// Precondition: max <= v[i] for every i 
for Cint n : v) 


// Obtain the actual maximum value 
for (int 1 = 0; 1 < v. length; i++) { 
if (v[i] > max) 
max = v[1i]; 
// Invariant: max >= v[j] for every j <= 1 
for Cint j = 0; j <= 1; J++) 
assert max >= v[j] : “Found value > max"; 


} 
// Postcondition: max >= v[i] for every i 
for (int n : v) 


assert max >= n : "Found value > max"; 
return max; 


除了 像 上 面 那样 ， 用 断言 来 检查 (并 表述 ) 算法 所 执行 的 操作 ， 还 可 以 通过 一 些 较为 松散 的 用 法 来 排解 各 种 问题 。 例 如 : 
-在 程序 的 开头 放置 断言 ， 以 验证 CPU 的 架构 属性 〈 例 如， 其 整数 型 数据 的 尺寸 ) 是 否 符合 要 求 。 


在 例 程 的 入 口 点 放置 断言 ， 以 验证 传 入 的 参数 是 否 具 备 正确 的 类 型 (如果 你 所 使 用 的 编程 语言 不 对 参数 类 型 进行 检查 ) ， 
并 确保 它们 具备 有 效 (如 不 为 hull) 且 合 理 的 取 值 。 


在 例 程 的 出 口 点 ， 验 证 其 结果 是 否 正 确 。 
“ 对 于 经 党 受到 调用 或 较为 复杂 的 方法 来 说 ， 可 以 在 其 开头 与 结尾 放置 断言 ， 以 验证 类 的 状态 是 否 能 够 保持 一 致 。 
“ 如 果 要 调用 菜 个 不 应 该 出 错 的 API 例 程 ， 那 么 可 以 在 调用 完 该 例 程 之 后 ， 通 过 断言 来 确保 这 一 点 。 


- 把 软件 所 需 的 资源 加 载 进来 之 后 ， 用 断言 来 验证 该 资源 是 否 得 到 了 正确 的 部 省 。 


:在 对 复杂 的 表达 式 进 行 求 值 之 后 ， 用 断言 来 验证 其 结果 是 否 具备 应 有 的 属性 或 合理 的 取 值 。 

- 在 switch 语 句 的 default 分 支 里 面 ， 加 入 一 条 表达 式 取 值 为 false 的 断言 语句 ， 以 捕获 未 能 由 其 他 分 支 所 处 理 的 情况 。 
+ 对 数据 结构 进行 初始 化 之 后 ， 用 断言 语句 来 验证 该 结构 是 否 有 具备 应 有 的 取 值 。 

总 之 ， 在 调试 的 时 候 ， 可 以 通过 断言 语句 来 表达 目 己 对 代码 的 理解 ， 并 用 它 来 测试 可 疑 的 代码 。 


如 果 你 添加 的 断言 语句 ， 是 为 了 表述 代码 所 执行 的 操作 ， 并 用 来 防止 以 后 有 可 能 友 生 的 问题 ， 那 么 其 中 的 大 部 分 语句 ， 都 可 
以 照 原样 保留 在 产品 代码 里 面 。 然 而 要 注意 的 是 : 如 果 你 在 调试 过 程 中 所 添加 的 断言 语句 ， 能 够 友 现 一 个 有 可 能 出 现在 生产 环境 
中 的 问题 ， 那 么 你 就 必须 用 更 为 健壮 的 错误 处 理 代码 来 替换 这 些 断 言语 句 ， 这 样 才 算 真 正 完成 调试 工作 。 例 如 ， 你 应 该 用 错误 处 
理 代码 来 对 用 尸 所 输入 的 内 容 或 其 他 一 些 不 为 你 所 控制 的 资源 进行 验证 ， 并 确保 某 些 可 能 会 出 诺 的 API 能 够 得 到 正确 的 执行 。 此 
外 ， 我 们 也 可 以 同时 米 用 断言 和 蛙 元 测试 代码 来 验证 某 个 例 程 ， 这 里 之 所 以 要 提 到 时 元 测试 ， 是 因为 这 些 测试 可 以 目 动 得 到 执 
行 ， 而 且 还 有 助 于 提升 产品 代码 的 测试 覆盖 度 。 


要 所 
. 用 一 些 与 单元 测试 相互 补充 的 断言 语句 来 更 加 精准 地 锁定 代码 中 的 错误 。 
` 通过 断言 语句 来 调试 复杂 的 算法 ， 以 验证 其 前 置 条 件 、 不 变 条 件 与 后 置 条 件 是 否 成 立 。 


在 调试 过 程 中 ， 用 断言 语句 来 表达 自己 对 代码 的 理解 ， 并 用 其 测试 可 疑 的 代码 。 


第 44 条 : 改动 受 测 程序 ， 以 验证 目 己 的 推 想 


我 们 总 是 把 那 种 随意 修改 程序 并 观察 其 行为 的 做 法 ， 贬 称 为 hacking。 然 而 如 果 你 是 在 深思 熟 虑 之 后 才 进 行 实验 的 ， 那 么 这 
种 做 法 残 可 以 帮助 你 验证 之 前 所 做 的 假设 ， 并 且 可 以 使 你 更 深入 地 了 解 正在 调试 的 系统 及 其 底层 平台 。 对 于 那些 目 身 品 质 不 是 特 
别 高 的 产品 代码 来 说 ， 这 种 修改 尤其 有 用 ， 因 为 它 可 以 帮 你 填补 文档 及 APl 中 的 空缺 。 


口 


调试 系统 的 时 候 ， 可 能 会 遇 到 下 面 这 样 的 问题 。 我 们 只 需要 修改 代码 ， 束 能 够 轻松 地 回答 这 些 问题 : 


+ 例 程 的 茶 个 参数 能 不 能 为 null? 


. 这 些 方法 之 间 的 调用 顺序 ， 与 当前 要 解决 的 问题 有 没有 关联 ? 
" 有 没有 比 现 在 用 的 这 个 API 效 果 更 好 的 其 他 APT? 


改动 代码 之 后 ， 我 们 通 党 会 通过 观察 程序 行为 、 查 看 日 志 记 录 ， 或 是 在 调试 器 中 运行 程序 等 手段 来 验证 目 己 的 推 根 是 否 成 


一 上 一 
ava 


有 一 种 做 实验 的 方式 ， 是 修改 代码 中 的 表达 式 和 值 ， 把 那些 在 程序 运行 时 才能 够 定 下 来 的 表达 式 蔡 换 成 党 量 表达 式 。 比 如 ， 
你 可 以 把 某 个 正确 的 常量 传 给 例 程 (或 是 令 例 程 尽 是 返回 这 个 常量 ) ， 然 后 看 看 你 要 调试 的 那个 问题 有 没有 消失 。 你 也 可 以 故意 


把 错误 的 值 传 给 例 程 (或 是 将 其 设 为 例 程 的 返回 值 )， 然 后 看 看 程序 的 故障 是 不 是 由 这 个 信 所 造成 的 。 此 外 ， 还 可 以 设置 极端 的 
参数 值 ， 使 得 某 个 较为 微妙 或 罕见 的 问题 (如 性 能 下 降 ) ， 能 够 更 加 容易 地 表现 出 来 (参见 第 17 条 ) 。 


还 有 一 种 做 实验 的 方式 ， 是 改 用 其 他 的 办 法 来 实现 程序 中 的 某 个 功能 ， 然 后 看 看 修改 后 的 代码 是 否 正 确 。 我 们 把 可 能 有 错误 
的 那 一 部 分 代码 ， 蔡 换 成 男 外 一 段 比较 好 的 代码 ， 然 后 看 看 这 样 做 能 否 解 决 问题 。 比 如 ，Microsoft Windows 提 供 了 5 种 以 上 
APIl， 用 来 获取 屏幕 上 某 个 字符 串 的 宽度 ， 然 而 它 并 没有 告诉 我 们 怎样 在 其 中 选择 最 为 合适 的 那个 APl。 如 果 你 遇 到 的 问题 是 文 
本 对 不 齐 ， 那 么 可 以 把 GetTextExtentPoint32 换 成 GetTextExtentExPoint， 然 后 看 看 能 否 对 齐 。 如 果 你 怀疑 程序 中 的 错误 与 某 
些 例 程 之 间 的 调用 顺序 有 关 ， 那 束 试 着 按照 另外 一 种 顺序 来 调用 这 些 例 程 。 此 外 ， 还 可 以 尝试 对 代码 进行 大 幅度 的 简化 (参见 第 


46 条 ) 。 


am 
-手工 设 定 代码 中 的 茶 些 值 ， 以 验证 哪些 取 值 是 正确 的 ， 哪 些 取 值 是 错误 的 。 


` 如 果 找 不 到 修改 代码 的 正确 方法 ， 可 以 试 着 用 其 他 的 方式 来 实现 它 。 


第 45 条 : 尽量 缩小 正确 沁 例 与 错误 代码 之 间 的 魏 距 


有 时 我 们 可 能 会 对 比 两 份 代码 ， 一 份 是 当前 正在 调试 的 代码 ， 另 一 份 是 一 段 可 以 正常 运行 的 学 例 代码 。 这 种 情况 通常 友 生 在 
调试 复杂 API 或 调试 算法 的 时 候 。 能 够 正常 运作 的 那个 学 例 ， 可 能 是 从 API 文 档 、 问 答 网 站 (参见 第 2 条 ) 、 开 源 软件 或 教科 书 里 
面 抄录 的 ， 将 该 范例 与 自己 的 代码 相对 比 ， 可 以 帮助 你 找到 有 错 的 地 方 。 笔 者 在 这 里 所 要 讲解 的 办 去， 是 通过 修改 源 代码 来 进行 
对 比 ， 此 外 ， 也 可 以 从 运行 时 的 行为 入 手 来 进行 对 比 (参见 第 5 条 ) 。 


如 果 你 要 参照 泡 例 代码 来 调试 目 己 所 写 的 代码 ， 那 么 必须 首先 保证 这 段 范 例 代码 能 够 编译 ， 并 且 可 以 正常 地 运行 。 若 是 做 不 
到 这 一 点 ， 那 就 说 明 你 所 直到 的 问题 ， 可 能 不 是 由 上 自己 所 写 的 代码 造成 的 ， 而 是 由 于 你 所 在 的 工作 环境 (编译 器 、 运 行 时 环境 以 
及 操作 系统 ) 有 问题 ， 或 者 你 误 以 为 某 个 API 或 算法 能 够 实现 你 想 要 的 功能 ， 但 实际 上 却 实现 不 了 。 此 外 ， 还 有 一 种 概率 比较 低 
的 情况 ， 那 束 是 第 三 方 的 代码 里 面 有 bug。 


对 你 要 参考 的 这 份 沁 例 代码 做 了 验证 之 后 ， 现 在 可 以 有 两 种 办 法 来 调试 目 己 的 代码 。 这 两 种 办 法 都 是 要 逐渐 缩减 学 例 代码 与 
错误 代码 之 间 的 差距 。 从 理论 上 来 说 ， 如 果 你 能 把 两 者 之 间 的 差距 消除 ， 那 么 你 的 代码 残 可 以 像 学 例 代 码 那样 正音 地 运作 了 。 


第 一 种 办 法 是 根据 自己 所 写 的 代码 来 逐步 修改 并 编译 范例 代码 。 如 果 要 调试 的 是 那 种 简单 而 上 自足 的 代码 ， 那 么 这 个 办 法 的 效 
果 束 很 好 。 我 们 从 目 己 所 写 的 代码 里 面 拿 出 来 一 些 内 容 ， 将 其 一 点 一 点 地 放 到 范例 代码 中 ， 每 次 修改 完 汽 例 代码 之 后 ， 束 去 看 看 
尼 的 功能 是 否 正 确 。 如 果 友 现 加 入 了 某 个 内 容 之 后 ， 范 例 代码 无 法 正常 运作 ， 那 束 说 明 程序 中 的 错误 ， 是 由 这 个 内 容 所 引 友 的 。 


第 二 种 办 法 是 根据 范例 代码 来 删改 自己 的 代码 ， 使 其 与 学 例 相符 。 如 果 你 自己 的 代码 中 有 着 很 多 依赖 关系 ,不 太 容 易 单独 拿 


来 做 ， 每 次 修改 完 之 后 ， 看 看 自己 的 代码 是 不 是 依然 有 问题 。 如 果 和 在 删 挥 或 修改 某 个 内 容 之 后 ， 代 码 突 然 可 以 正音 运行 了 ， 那 残 
说明 你 要 解决 的 问题 ， 与 刚才 删改 的 那个 内 容 有 关 。 


BR 


-逐渐 缩减 你 自己 的 代码 ， 使 其 与 范例 代码 相符 ， 或 是 逐渐 修改 范例 代码 ， 使 其 与 你 自己 的 代码 相符 ， 这 两 种 办 法 都 可 以 用 
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第 46 条 : 简化 可 疑 代码 


复杂 的 代码 是 很 难 调试 的 ， 因 为 其 中 有 很 多 条 执行 路 径 需 要 考虑 ， 而 且 还 有 相互 纠缠 的 数据 流 需 要 厘清 ， 这 些 都 会 增加 我 们 
排查 错误 所 需 的 工作 量 。 为 了 使 代码 调试 起 来 容易 一 些 ， 我 们 通常 需要 对 其 进行 简化 。 这 种 简化 可 能 是 临时 的 (参见 第 17 
条 ) ， 也 可 能 是 永久 的 ， 前 者 是 为 了 凸显 程序 中 的 错误 ， 后 者 则 是 为 了 彻底 修复 该 错误 。 在 开始 大 幅度 简化 代码 之 前 ， 首 先 要 保 
证 代码 可 以 适当 地 回复 到 早 前 的 版 本 。 你 应 该 把 需要 修改 的 每 一 个 文件 ， 都 纳入 版 本 控制 系统 (参见 第 26 条 ) ， 而 且 还 要 能 够 
把 代码 恢复 到 初始 状态 ， 为 了 做 到 这 一 点 ， 你 可 以 考虑 在 目 己 的 分 文 上 面 进行 修改 。 


如 果 玉 用 临时 修改 的 办 去， 那么 通常 需要 大 幅度 地 删除 代码 。 在 保证 程序 依然 会 出 错 的 前 提 下 ， 你 需要 尽 可 能 多 地 删 减 代 
码 ， 以 便 将 可 疑 代码 的 数量 缩 至 最 小 ， 从 而 能 够 更 加 容易 地 找 出 其 中 的 错误 。 一 般 来 说 ， 我 们 首先 会 删 挥 一 大 块 代码 ， 或 是 删 挥 
对 某 个 复杂 消 数 的 调用 操作 ， 然 后 编译 程序 ， 并 查看 其 运行 结果 。 如 果 程 序 这 次 依然 有 错 ， 那 束 继 续 删 除 ， 如 果 程 序 没 错 ， 那 束 
把 刚 删 挥 的 这 部 分 代码 复原 ， 下 次 试 厦 从 里 面 少 删除 一 些 代码 。 如 果 删 去 某 一 部 分 代码 之 后 ， 程 序 残 不 出 错 了 ， 那 么 你 完全 有 理 
由 认为 : 程序 的 错误 与 删 去 的 代码 之 间 有 着 某 种 联系 。 将 可 疑 代码 的 范围 缩减 到 一 定 程序 之 后 ， 可 以 米 用 另外 一 种 做 法 来 排查 问 
题 ， 也 束 是 设法 删 掉 数 量 极 少 的 内 容 ， 使 得 程序 在 删 掉 这 部 分 内 容 之 后 ， 变 得 可 以 正常 运行 。 


你 可 以 把 每 一 步 的 删除 操作 都 记录 在 版 本 控制 系统 中 ， 然 而 采用 编辑 器 自身 的 功能 来 做 ， 通 常会 更 快 一 些 。 用 编辑 器 打开 代 
码 ， 每 删 掉 一 段 ， 就 保存 一 次 。 如 果 删 掉 之 后 程序 依然 出 错 ， 那 就 继续 删除 ;如 果 错 误 消 失 ， 那 就 通过 撤销 功能 来 还 原 上 一 步 所 
删 的 代码 ， 然 后 选择 一 个 比 上 次 小 的 范围 ， 继 续 删除 代码 。 你 可 以 按照 二 分 搜索 算法 ， 有 规律 地 执行 这 个 过 程 。 

不 要 和 急 着 把 你 想 排 除 的 那些 代码 直接 注释 掉 ， 因 为 如 果 些 代码 里 面 本 身 就 含有 注释 ， 那 么 这 种 多 重 骨 套 的 注释 可 能 会 引发 问 
题 。 对 于 支持 预 处 理 程序 的 语言 来 说 ， 可 以 把 这 段 代码 放 在 带 有 条 件 的 预 处 理 块 中 。 

#ifdef ndef 


// code you don't want to be executed 
#endif 


对 于 其 他 语言 来 说 ， 可 以 把 需要 禁用 的 那些 代码 ， 放 在 if (false) 条 件 语句 块 里 面 。 


有 时 不 一 定 非 要 把 代码 删 挥 ， 而 是 可 以 通过 对 其 进行 调整 来 实现 简化 。 比 如 ， 只 需要 企 if 或 loop 语 句 块 的 条 件 开始 处 多 写 一 
个 false 值 ， 融 可 以 确保 语句 块 里 面 的 代码 不 会 得 到 执行 了 。 例 如 ， 下 面 这 段 代 码 : 


while (a() && bQ)) 
someComp lexCode() ; 


if (bO && !cQ & dQ && !eQ) 
someOtherComp lexCode() ; 


可 以 分 步骤 向 化 为 : 


while (false && aQ) && b()) 
someComp lexCode() ; 


if (false & !cQ & dQ && !eQ) 
someOtherComp lexCode() ; 


在 其 他 一 些 情况 下 ， 我 们 可 以 永久 地 简化 复杂 语句 ， 以 降低 调试 的 难度 。 例 如 ， 下 面 这 个 语句 : 


d = s.client(q, r).booking(x).period(y, checkout(z)).durationQ ; 


像 这 样 拼接 成 一 长 串 的 语句 ， 不 妨 称 为 train wreckiaA), AACRAXS BESSA SS. ASEAN 
看 出 其 中 每 个 方法 的 返回 值 ， 因 此 调试 起 来 是 很 困难 的 。 我 们 可 以 添加 委托 方法 (参见 第 48 条 ) 来 解决 这 个 问题 ， 也 可 以 像 下 
面 这 样 ， 将 表达 陈 拆 分 成 几 个 小 的 部 分 ， 并 把 每 一 部 分 的 结果 放 到 一 个 临时 变量 中 。 


Client c = s.client(q, r); 
Booking b = c.booking(x) ; 
CheckoutTime ct = checkout(z); 
Period p = b.period(y, ct) 
TimeDuration d = p.duration(); 


这 样 修改 之 后 ， 融 更 容易 在 调试 器 里 面 看 出 每 次 方法 调用 的 结果 了 ， 此 外 ， 还 可 以 更 为 方便 地 添加 相应 的 日 志 语 句 。 由 于 类 
型 或 变量 及 用 了 有 意义 的 名 称 ， 因 此 代码 也 变 得 更 加 易 读 。 性 能 问题 是 无 需 担 心 的 ， 因 为 当前 的 编译 器 都 明日 应 该 怎样 消除 不 必 
要 的 临时 变量 。 


另 一 种 值得 考虑 的 简化 方式 ， 是 把 大 函数 拆 成 多 个 小 的 部 分 。 这 样 做 给 调试 工作 所 市 来 的 好 处 主要 在 于 : 我 们 可 以 通过 单独 
测试 每 一 个 部 分 来 找寻 消 数 中 的 问题 (参见 第 42 条 ) 。 还 有 一 个 好 处 是 : 在 这 个 过 程 中 ， 我 们 可 以 更 好 地 理解 受 测 代码 ， 并 厘 
清 各 部 分 之 间 的 关系 ， 从 而 将 其 中 没有 必要 的 那些 交互 操作 删 去 。 这 两 项 优点 ， 有 助 于 我 们 找到 解决 问题 的 办 法 。 


还 有 一 种 幅度 更 大 的 永久 简化 万 式 ， 那 束 是 人 弃 用 某 些 复杂 的 算法 、 数 据 结 构 或 程序 钦 辑 。 之 所 以 能 够 这 样 做 ， 是 因为 我 们 所 
要 寻找 的 错误 ， 可 能 正好 位 于 这 些 复杂 的 代码 中 ， 而 这 些 代 码 ， 其 实 完全 可 以 改 用 其 他 方式 来 代 蔡 。 下 面 举 几 个 典型 的 例子 : 


: 从 前 的 某 些 优化 算法 ， 在 当前 这 个 处 理 器 速度 很 快 的 时 代 ， 已 经 没有 必要 使 用 了 。 在 3MHz 的 VAX 计 算 机 上 ， 用 户 或 许 能 
够 感受 到 响应 时 间 为 500 毫 秒 和 5 毫秒 的 两 个 算法 所 体现 出 的 区 别 。 然 而 对 于 频率 为 3.2GHz 的 Intel Core i5 CPU 来 说 ， 这 两 种 算法 
的 响应 时 间 分 别 变 成 了 500 微 秒 与 5 微 秒 ， 用 户 已 经 不 可 能 感受 到 其 中 的 差别 了 。 在 这 样 的 情况 下 ， 如 果 要 处 理 小 型 的 固定 数据 
集 ， 那 么 完全 可 以 改 用 更 为 简单 的 算法 来 做 。 


“当今 的 内 存 容量 、 磁 盘 空间 以 及 网 络 带宽 都 比较 丰富 ， 因 此 我 们 很 少 需要 像 原来 那样 ， 采 用 复杂 的 位 运算 来 把 数据 害 进 某 
种 二 进 制 结构 中 ， 而 是 可 以 直接 采用 编程 语言 自 带 的 integer ( 整 型 ) 或 Boolean (布尔 ) 等 变量 类 型 来 表示 数据 。 其 他 一 些 复杂 的 
数据 压缩 方案 ， 也 可 以 做 类 似 的 处 理 。 


- 硬件 技术 发 生 改 变 之 后 ， 我 们 就 没有 必要 再 使 用 以 前 的 某 些 优化 算法 了 了。 比如， 操作 系统 的 内 核 曾 经 包含 一 种 复杂 的 电梯 
算法 ， 用 来 优化 磁盘 磁头 的 移动 方式 。 然 而 对 于 当前 的 磁盘 来 说 ， 因 为 我 们 没有 办 法 知道 某 个 数据 块 在 盘 片 中 的 具体 位 置 ， 所 以 
这 种 算法 是 派 不 上 用 场 的 ， 此 外 ， 由 于 固态 硬盘 的 寻 道 时 间 几 乎 为 0， 因 此 ， 就 更 不 需要 使 用 这 些 复杂 的 算法 和 数据 结构 了 。 


` 某 些 容易 出 bug 的 算法 ， 可 以 改 用 编程 框架 中 的 库 或 成 熟 的 第 三 方 组 件 来 实现 。 比 如 ， 如 果 你 想 编写 一 个 时 间 复 杂 度 为 
O (n) 的 算法 ， 以 寻找 容器 里 面 各 个 元 素 的 中 位 数 (median value) ， 那 么 你 所 写 出 来 的 算法 ， 可 能 会 包含 很 多 微妙 的 bug。 在 这 
种 情况 下 ， 你 可 以 改 用 C+ 十 的 std::nth_element 朋 数 来 查询 中 位 值 ， 以 避 开 这 些 问 题 。 从 更 大 的 层面 上 来 说 ， 如 果 你 所 使 用 的 是 某 


一 款 专 用 的 数据 存储 及 查询 引擎 ， 而 该 引擎 又 有 着 一 些 bug， 那 么 可 以 考虑 用 关系 型 数据 库 来 取代 这 个 引擎 。 


“ 菜 些 旨 在 改进 程序 性 能 的 复杂 算法 ， 其 实 是 小 题 大 做 。 只 有 当 性 能 分 析 或 其 他 一 些 分 析 的 结果 确实 要 求 我 们 对 某 些 关键 代 
码 做 出 优化 时 ， 我 们 才 需 要 着 手 考虑 这 些 算 法 。 程 序 员 有 时 会 忽视 这 条 原则 ， 从 而 无 谓 地 创造 出 一 些 过 于 精巧 且 过 于 复杂 的 算 
法 。 如 果 你 能 齐 用 这 些 代码 ， 那 么 自然 就 不 需要 再 担心 其 中 的 bug 了 。 


“ 与 过 去 相 比 ， 当 前 的 用 户 更 喜欢 简洁 的 交互 方式 。 我 们 从 前 需要 用 复杂 的 代码 来 展示 烦琐 的 对 话 框 ， 并 在 其 中 放置 很 多 种 
可 以 调节 的 参数 ， 而 现在 ， 只 需要 用 较为 简单 的 代码 来 展示 几 个 精心 挑选 的 参数 即 可 ， 至 于 其 他 的 参数 ， 则 不 妨 设 为 合理 的 默认 
值 。 


BR 
- 有 选择 地 删除 大 段 代 码 ， 使 错误 变 得 更 加 突出 。 
“ 把 复杂 的 语句 或 函数 拆 成 多 个 小 的 部 分 ， 以 便 单 独 监控 或 测试 其 功能 。 


` 考 谍 弃 用 那些 可 能 会 出 bug 的 复杂 算法 ， 并 改 用 简单 一 些 的 算法 来 实现 。 


第 47 条 : 将 可 疑 代码 改 用 另外 一 种 编程 语言 来 写 


如 果 你 友 现 某 个 问题 无 论 如 何 都 解决 不 了 ， 那 么 可 能 要 采取 一 些 幅 度 更 大 的 措施 。 其 中 一 个 措施 ， 是 采用 另外 一 种 语言 来 改 
写 这 些 有 问题 的 代码 。 在 更 为 优秀 的 编程 环境 中 ， 我 们 可 以 采用 更 好 的 工具 来 理解 问题 ， 并 创建 出 可 行 的 初步 解决 方案 ， 以 便 完 
全 绕 过 该 pug， 或 找到 并 修复 记 。 (这 条 原则 在 并 友 问 题 上 面 的 运用 请 参见 第 66 条 。 ) 


新 选 的 这 门 编程 语言 ， 写 起 代码 来 应 该 比 当前 用 的 这 种 语言 更 加 方便 。 比 如 ， 如 果 想 更 加 容易 地 评估 复杂 的 交易 策略 ， 那 么 
就 应 该 改 用 R、F#、Haskell、Scala 或 ML 等 支持 销 数 式 编程 的 语言 。 此 外 ， 还 可 以 通过 编程 语言 的 程序 库 来 获得 更 多 的 便利 。 
在 某 些 情况 下 ， 这 样 做 所 市 来 的 好 处 是 很 大 的 ， 大 到 我 们 几乎 不 可 能 退回 到 原来 那些 功能 不 太 丰 语 的 语言 ， 比 如 ， 统 计 方 面 的 计 
算 工 作 ， 融 是 应 该 改 用 R 语 言 来 完成 才 好 。 再 举 一 个 例子 : 如 果 你 要 在 动态 分 配 的 元 素 集 合 中 ， 执 行 一 些 来 手 的 字符 串 操 作 ， 那 
么 可 以 考虑 用 C++ 或 Python 语言 来 改写 原 有 的 C 语 言 代 码 。 采 用 表意 能 力 更 强 的 语言 编写 程序 ， 可 以 令 实现 代码 变 得 更 为 简 
洁 ， 从 而 减少 出 错 的 概率 。 


还 有 一 个 与 调试 工作 有 关 的 语言 特性 也 值得 注意 ， 那 就 是 : 你 所 选用 的 编程 语言 能 不 能 较为 方便 地 查看 代码 的 行为 ， 比 如 ， 
是 否 能 够 通过 渐进 的 方式 来 构建 这 些 代码 。 从 这 一 方面 看 ， 脚 本 语言 的 优势 是 比较 大 的 ， 因 为 这 些 语 言 可 以 按照 读 取 一 求 值 一 
输出 的 流程 来 反复 循环 (read-eval-print loop, REPL) 。 如 果 你 是 通过 Unix 工 具 加 管道 的 方式 来 实现 算法 的 ， 那 么 可 以 考虑 先 
验证 当前 这 个 阶段 的 输出 是 否 正 确 ， 然 后 再 添加 下 一 个 阶段 。 此 外 ， 如 果 你 所 使 用 的 开 友 系统 没有 提供 合适 的 调试 、 日 志 记 录 或 
单元 测试 框架 ， 那 么 可 以 考虑 迁移 到 更 为 先进 的 实现 环境 中 ， 以 便 及 用 更 为 强大 的 机 制 来 解决 你 正在 调试 的 这 个 问题 。 当 你 在 小 
型 的 蔚 入 式 设 备 上 面 ， 及 用 功能 较 少 的 开发 工具 进行 调试 时 ， 尤 其 应 该 考虑 改 用 另外 一 套 开 友 环 境 。 


如 果 新 编写 的 代码 能 够 正常 运作 ， 那 我 们 可 以 考虑 采用 两 种 办 法 来 解决 早 前 遇 到 的 问题 。 第 一 种 办 法 是 在 软件 项 目 里 面 及 用 
新 代码 实现 相关 的 功能 ， 并 把 原来 的 代码 删 挥 。 如 果 新 旧 两 种 编程 语言 结合 得 比较 好 ， 那 么 改编 起 来 是 很 容易 的 。 例 如 ， 对 于 那 
种 只 有 少数 几 个 纯 数据 形式 的 参数 ， 而 且 返 回 值 也 比较 简单 的 C+ + 函数 来 说 ， 我 们 很 容易 就 能 在 C 语 言 里 面 调用 它 。 此 外 ， 也 可 
以 把 新 写 好 的 这 份 实现 代码 ， 当 成 独立 的 进程 或 微服 务 来 调用 ， 当 我 们 不 太 在 乎 调用 所 引 友 的 开销 时 ， 这 种 做 法 是 可 行 的 。 


第 二 种 办 法 ， 是 参照 新 代码 来 修正 旧 代码 。 我 们 可 以 观察 这 两 份 代码 在 行为 上 的 区 别 (参见 第 5 条 ) ， 或 逐渐 缩小 这 两 份 代 
码 之 间 的 差距 ， 以 便 使 bug 能 够 浮现 出 来 (参见 第 4? 条 ) 。 前 一 种 做 法 要 求 我 们 在 两 种 实现 方式 所 用 的 变量 及 例 程 的 返回 值 乙 间 
进行 比较 ， 而 后 一 种 做 法 则 要 求 我 们 通过 逐渐 试 锻 来 寻找 正确 的 实现 方式 。 


“ 采用 另外 一 种 表达 能 力 更 强 的 语言 来 改写 那些 难以 修复 的 代码 ， 以 减少 可 能 出 现 问题 的 语句 数 量 。 
把 有 bug 的 代码 移植 到 更 好 的 编程 环境 中 ， 以 便 采用 更 为 强大 的 调试 工具 来 解决 其 中 的 问题 。 


. 把 新 的 实现 方式 写 好 之 后 ， 我 们 可 以 采用 这 种 方式 来 完成 原 有 的 功能 ， 或 是 参照 它 来 修改 旧 的 代码 。 


第 48 条 : 改善 可 疑 代码 的 可 读 性 与 结构 


混乱 而 糟糕 的 代码 ， 很 容易 滋生 bug。 我 们 应 该 清理 这 些 代 码 ， 以 便 发 现 并 修复 其 中 的 bug。 然 而 在 开始 清理 之 前 ， 首 先 必 
须 保证 目 己 确实 有 足够 的 时 间 和 相应 的 权利 来 做 这 件 事 。 如 果 你 为 了 修复 某 个 bug， 想 要 一 下 子 改动 四 干 多 行 代码 ， 那 么 是 不 会 
有 人 轻易 赞同 你 这 种 做 法 的 。 你 至 少 应 该 把 沪 饰 性 的 调整 ， 与 代码 重 构 及 真正 的 bug 修 复工 作 分 开 ， 并 且 要 分 别 进行 提交 。 人 在 某 
些 环境 中 ， 最 明知 的 办 法 是 和 同事 相互 商量 ， 看 看 应 该 怎样 协调 前 面 两 种 改动 。 


调整 代码 时 ， 应 该 首先 由 空白 入 手 。 从 最 底层 来 说 ， 我 们 要 确保 操作 符 及 保留 字 两 边 的 空格 使 用 方式 ， 能 够 在 整个 项 目 里 面 
保持 一 致 ， 而 且 要 与 当前 团队 所 采用 的 风格 相符 ， 以 帮助 我 们 发 现 语 句 和 表达 式 中 某 些微 妙 的 错误 。 在 稍 高 一 些 的 层面 上 ， 我 们 
要 确保 缩 进 的 空格 数 在 整个 项 目 中 都 是 相同 的 (一般 来 说 ， 缩 进 2、4 或 8 个 空格 ) 。 如 果 代 码 缩 进 得 比较 整齐 ， 那 么 其 控制 流 就 
会 显得 更 加 清晰 。 跨 越 多 行 的 语句 尤其 值得 注意 ， 对 这 种 语句 进行 适当 的 缩 进 ， 可 以 令 我 们 看 出 其 中 那些 复杂 的 表达 式 及 函数 调 
用 操作 写 得 是 否 正确 。 从 最 高 层 来 说 ， 我 们 要 添加 适当 的 空白 ， 以 帮助 阅读 者 理解 代码 的 含义 。 比 如 ， 可 以 通过 多 添加 空格 的 办 
法 来 把 相似 的 一 组 表达 式 对 齐 ， 使 得 其 中 有 问题 的 地 方 得 以 凸显 ， 也 可 以 通过 添加 空 行 的 办 法 来 把 代码 分 成 多 个 代码 块 ， 使 得 每 
个 代码 块 都 能 够 包 合 一些 逻辑 上 较为 接近 的 语句 ， 以 帮助 阅读 者 更 好 地 理解 代码 的 结构 。 总 之 ， 代 码 的 样子 要 和 它 的 功能 相对 
应 ， 这 样 才 能 令 我 们 更 容易 看 出 其 中 的 问题 。 如 果 手 动 调整 代码 格式 所 需 的 工作 量 实在 大大， 那么 可 以 考虑 通过 1DE 或 clang- 
format 及 indent 这 样 的 工具 来 自动 进行 调整 。 


对 代码 格式 进行 调整 ， 可 以 改善 其 外 观 ， 然 而 它 的 功效 仅 止 于 此 。 把 格式 修整 好 之 后 ， 接 下 来 还 应 该 考虑 是 否 需要 重 构 
(refactor) 。 所 谓 重 构 ， 是 握 在 维持 代码 功能 不 变 的 前 提 下 ， 改 善 其 结构 。 为 了 修复 代码 中 的 问题 ， 我 们 要 么 把 代码 重 构成 更 
为 有 序 的 结构 (这 种 做 法 接近 于 重 写 ， 参 见 第 47 条 ) ， 要 么 焉 对 代码 进行 规整 ， 使 得 其 中 的 错误 变 得 更 加 突出 。 下 面 询 出 一 些 
党 见 的 代码 异味 (code smell) ,这些 异味 有 可 能 会 掩盖 代码 中 的 错误 ， 我 们 可 以 通过 适当 的 重 构 来 解决 这 些 问题 。 大 部 分 例 
子 都 源 于 Martin Fowler 折 者 的 《Refactoring: Improving the Design of Existing Code) (Addison-Wesley, 2000) 一 
书 。 与 重 构 有 天 的 详细 内 容 ， 请 参阅 这 本 经 典 的 教程 。 


重复 的 代码 (duplicated code) 可 能 会 引入 bug， 因 为 如 果 你 只 对 其 中 的 几 份 代码 做 了 改进 与 修复 ， 而 没有 更 新 其 他 的 副 
本 ， 那 么 未 更 新 的 那些 代码 就 有 可 能 出 现 问 题 。 我 们 应 该 把 这 些 重 复 的 代码 全 都 放 到 一 个 常用 的 例 程 、 类 或 模板 里 面 ， 这 样 只 需 
要 在 一 个 地 万 做 出 修改 ， 束 可 以 在 整个 程序 中 见效 。 如 果 bug 确 实 是 因为 这 些 相似 的 代码 没有 同步 更 新 而 导致 的 ， 那 么 在 把 刚才 
襄 的 那个 公用 例 程 提取 好 之 后 ， 丈 可 以 逐个 删除 原来 的 副本 了 。 我 们 在 删除 每 一 个 副本 时 ， 都 将 该 副本 与 提取 好 的 公用 版 本 相 比 
对 ， 以 确定 pug 究 竟 是 由 哪 一 个 副本 所 引起 的 。 


重复 的 代码 也 有 可 能 隐藏 在 switch 语 句 里 面 ， 这 些 语句 通常 会 根据 某 个 代表 数据 类 型 的 值 来 改变 程序 的 流向 。 当 我 们 在 某 些 
switch 语 句 里 面 添加 新 的 判断 情况 时 ， 很 容易 束 会 志 记 编写 相应 的 case 从 句 ， 从 而 导致 程序 悄 无 声息 地 出 现 问 题 。 要 想 解 决 这 
个 问题 ， 有 一 种 简单 的 办 法 是 添加 default 从 句 ， 并 在 程序 执行 到 该 分 支 时 打 EDlog 消 息 ， 以 记录 这 一 错误 。 更 好 的 一 种 办 法 则 是 
重新 调整 代码 结构 ， 以 彻底 消除 switch 语 句 。 我 们 通常 会 把 与 每 个 case 分 支 有 关 的 行为 ， 移 入 各 子 类 的 对 应 方法 中 ， 并 且 对 这 
个 多 人 态 方 法 进行 调用 ， 以 替换 原来 的 switch 语 句 。 此 外 ， 也 可 以 用 状态 对 象 来 蔡 换 原 有 的 switch 语 句 ， 并 把 各 case 分 支 中 的 行 
为 分 散 到 状态 对 象 的 各 个 子 类 中 。 


还 有 一 个 与 之 有 关 的 代码 腊味， 叫做 禾 弹 式 修 改 (shotgun surgery) ， 也 融 是 那 种 修改 一 处 代码 会 影响 多 个 万 法 与 字段 的 
情况 。 你 所 要 调试 的 bug， 有 可 能 恰恰 瓯 是 因为 有 人 所 了 对 受 影响 的 万 法 或 字段 进行 调整 。 我 们 应 该 把 受 影响 的 这 些 方 法 与 字段 
全 都 放 到 同一 个 类 里 面 ， 以 确保 它们 总 是 能 够 役 此 协调 地 进行 变化 。 这 个 类 可 以 帮助 我 们 纺 减 所 需 改 动 的 代码 蕊 围 ， 它 可 以 由 已 
有 的 类 、 新 建 的 类 或 某 个 内 部 类 (TEAUINERESS) 来 充当 。 


另外 一 种 代码 异味 也 容易 引 友 代码 不 一 致 的 问题 ， 这 残 是 数据 泥 团 (data clump) ， 它 是 措 那 些 经 常 同时 出 现 的 数据 对 
象 。 我 们 应 该 把 这 些 数 据 放 到 某 个 类 中 ， 并 改 用 那个 类 的 对 象 来 表示 某 些 参数 及 返回 值 ， 这 样 不 仅 能 够 对 原来 众多 的 数据 对 象 进 
行 归 并 ， 而 且 还 可 以 防止 由 于 态 写 菏 个 数据 对 铺 所 引 友 的 bug.。 


如 果 你 米 用 integer 或 string 等 编程 语言 的 基本 类 型 值 (primitive values) 来 表达 像 货 币 、 日 期 或 邮编 这 样 的 复杂 概念 ， 那 
么 就 有 可 能 在 操作 这 些 值 的 时 候 不 小 心 犯 错 。 比 如 ， 如 果 你 用 整数 来 表示 货币 值 ， 那 就 有 可 能 把 两 种 不 同 的 货币 值 直接 相 加 。 我 
们 应 该 用 类 来 表示 这 样 的 概念 ， 并 且 用 类 的 对 象 来 蔡 换 代码 中 的 基本 类 型 值 。 与 之 类 似 ， 基 本 类 型 的 数组 ， 也 应 该 改 成 链表 或 大 
小 可 变 的 vector 等 容器 ， 这 样 可 以 帮 你 修复 那些 与 数组 尺寸 管理 有 关 的 错误 。 更 进一步 的 做 法 ， 是 专门 针对 时 间 、 质 量 、 力 、 能 
和 加 速度 等 具体 的 物理 概念 来 定制 特别 的 类 ， 而 不 采用 原始 的 浮 点 数 类 型 来 表示 它们 的 值 。 这 样 做 令 我 们 能 够 以 适当 的 方法 来 表 
示 这 些 类 之 间 的 结合 天 系 (例如 ，F=mxa， 力 = 质量 x 加 速度 ) ， 从 而 避免 那 种 类 型 错乱 的 赋值 行为 ， 如 把 apple (苹果 ) 类 型 
的 值 赋 给 orange (WF) 类 型 的 变量 。 

纷繁 的 接口 会 令 代码 结构 变 得 混乱 ， 从 而 容易 滋生 bug， 比 如 ， 每 个 类 都 各 自 支 持 一 套 不 同 的 方法 ， 而 这 些 方法 的 名 称 、 参 
数 顺 序 及 参数 类 型 也 都 各 有 区 别 。 面 对 这 种 情况 ， 我 们 应 该 通过 重 命名 及 调整 顺序 等 做 法 来 使 这 些 方法 的 名 称 及 参数 顺序 彼此 相 
似 ， 并 且 通 过 删除 和 移动 方法 等 手段 来 使 各 个 类 所 拥有 的 方法 也 彼此 相似 。 等 到 这 些 类 都 具备 类 似 的 新 接口 之 后 ， 我 们 或 许 还 能 
够 发 现 其 他 一 些 重 构 的 机 会 ， 例 如 ， 可 以 把 相似 的 接口 提取 到 超 类 里 面 。 

过 长 的 例 程 是 很 难 阅读 和 调试 的 (参见 第 46 条 ) ， 我 们 应 该 将 其 拆 分 为 多 个 小 块 ， 并 对 复杂 的 条 件 进 行 分 解 ， 通 过 对 其 他 
例 程 所 进行 的 调用 来 表达 这 个 复杂 的 逻辑 。 如 果 某 个 方法 由 于 使 用 了 过 多 的 临时 变量 ， 从 而 导致 拆 分 起 来 很 困难 ， 那 么 可 以 考虑 
将 其 改 为 方法 对 象 ， 并 把 临时 变量 转换 为 该 对 象 的 字段 。 

如 果 代 码 片段 之 间 依 赖 得 过 于 紧密 ， 那 么 就 有 可 能 把 某 些 错 误 的 交互 行为 掩盖 起 来 ， 这 些 行为 会 破坏 本 来 应 该 成 立 的 不 变 条 
件 以 及 程序 的 正常 状态 。 我 们 应 该 通过 移动 方法 及 字段 等 办 法 来 尽量 打破 这 种 依赖 关系 ， 如 果 类 之 间 确 实 要 有 依赖 关系 ， 那 就 尽 
量 确保 这 种 关系 是 单 向 而 非 双向 的 。 过 长 的 方法 调用 链 ， 可 能 会 向 客户 代码 暴露 一 些 它们 无 需 访问 的 内 容 ， 这 也 有 可 能 引发 程序 
错误 。 我 们 可 以 通过 引入 委托 方法 来 拆 解 这 样 的 方法 调用 链 。 比 如 ， 下 面 这 个 表达 式 就 显得 有 些 长 : 


account.getOwner() .getName() 


通过 引入 名 为 getOwnerName 的 委托 方法 ， 我 们 可 以 将 其 改 为 : 


account .getOwnerName() 


还 有 一 个 令 人 意 想 不 到 地 方 ， 也 可 以 进行 重 构 ， 那 融 是 代码 中 的 注释 ， 因 为 有 些 人 喜欢 用 注释 来 掩 兰 一 些 不 易 理解 或 质量 不 
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表达 的 意思 ， 然 后 在 原来 写 有 大 上 段 注释 的 地 方 调用 这 个 方法 ， 以 求 简 化 程序 的 代码 ， 并 凸显 其 中 的 逻辑 错误 。 此 外 ， 也 可 以 用 断 
言 (参见 第 43 条 ) 来 更 加 有 效 地 表达 注释 中 所 提 到 的 前 置 条 件 ， 因 为 只 要 条 件 得 不 到 满足 ， 断 言语 名 融会 立刻 失败 ， 从 而 引起 
我 们 的 注意 。 


最 后 ， 还 要 注意 删 掉 那 些 永远 执行 不 到 的 代码 (dead code) ， 以 及 脐 想 出 来 的 通用 代码 (speculative generality) 。 删 
除 无 用 的 代码 和 | 参数、 缩减 无 用 的 类 体系 、 把 仪 有 一 个 客户 代码 会 调用 的 类 进行 内 联 ， 并 给 那些 名 称 特别 抽象 的 方法 重新 起 各， 
以 反映 其 真实 功能 。 这 些 举措 都 可 以 使 bug 无 处 藏身 。 


要 局 
| 用 连贯 的 格式 来 修整 代码 ， 以 凸显 其 中 的 错误 。 


对 代码 进行 重 构 ， 以 消除 那些 品质 不 住 或 毫 无 用 处 的 复杂 结构 ， 使 潜藏 在 其 中 的 bug 得 以 暴露 。 


第 49 条 : 要 清除 bug 的 根 兰 ， 而 不 仪 仅 消 除 其 症状 


令 人 奇怪 的 是 ， 有 很 多 开发 者 都 急于 采用 应 付 的 办 法 来 掩盖 pug， 并 试图 以 此 化 解 程序 中 的 问题 。 下 面 举 几 个 采用 条 件 语句 
来 “修复 ”bug 的 例子 : 


避免 引用 空 指针 : 


if (p != null) 
p.aMethod(); 


- 绕 开 除数 为 0 的 问题 : 


if (nVehicleWheels == 0) 
return weight; 
else 
return weight / nVehicleWheels; 


把 变量 的 取 值 强行 调整 到 合理 的 范围 内 : 


a = surfaceArea() 
if (a < 0) 
a = 0; 


+ ITIR Sl) ALT AE EAT EE: 


if Csurname.equalsC"Wolfeschlegelsteinha")) 
surname = "Wolfeschlegelsteinhausenbergerdorff" ; 


在 上 面 那些 语句 中 ， 有 几 个 例子 确实 可 以 找到 合理 的 借口 。 然 而 你 如 果 在 没有 探查 根源 的 前 提 下 ， 残 仅仅 通过 这 些 条 件 语 句 
来 绕 开 某 个 导致 程序 月 省 的 bug、 某 种 异 弟 或 某 个 错误 的 结果 ， 那 么 这 种 做 法 就 说 不 过 去 了 。 (笔者 见 过 一 个 最 为 极端 的 例子 ， 


是 在 C 语 言 里 面 设法 把 字符 串 中 温 入 的 控制 字符 给 删 掉 ， 然 而 这 些 控制 字 答 究竟 是 怎么 混 进 来 的 ， 则 没有 人 清楚 。 
采用 权宜 的 代码 来 绕 开 bug 是 一 种 很 不 好 的 做 法 ， 因 为 这 会 造成 许多 问题 : 
: 通过 避 开 某 些 功能 代码 来 “修复 ” 现 有 的 pug， 有 可 能 会 引入 更 为 微妙 的 新 bug。 


由 于 你 并 没有 清除 掉 该 bug 的 根源 ， 因 此 程序 里 面 可 能 还 会 存留 一 些 不 那么 明显 的 症状 ， 而 且 有 些 bug 以 后 或 许 会 以 另外 一 
种 形式 表现 出 来 。 


> 程序 的 代码 会 无 谓 地 复杂 起 来 ， 从 而 变 得 难以 理解 和 修改 。 


: 由 于 这 种 权宜 的 “修复 ”方案 把 症状 给 掩盖 起 来 了 ， 因 此 bug 的 根源 就 会 变 得 更 难 查 找 。 比 如 ， 当 程序 发 生前 溃 时 ， 你 本 
来 可 以 据 此 去 寻找 bug 的 根源 (参见 第 55 条 ) ， 但 你 却 选择 了 用 临时 代码 来 绕 过 这 个 pug。 


由 此 可 见 ， 只 掩盖 bug 症 状 而 不 清除 其 根源 的 做 法 ， 是 一 种 看 似 轻 松 但 实际 上 很 费事 的 举动 ， 它 会 令 你 的 程序 育 负 扩 术 债务 
(technical debt) 。 


还 有 一 个 与 之 相关 ， 但 不 那么 严重 的 做 法 也 值得 注意 ， 那 区 是 : 在 本 来 应 该 以 简单 的 方式 提出 通用 解决 方案 (参见 第 46 
R) 的 场合 ， 却 给 出 了 一 种 只 能 应 对 特例 的 修复 办 法 。 比 如 ， 下 面 这 段 代 码 本 来 应 该 把 角 调 整 到 0 至 2xTt 这 个 学 围 内 ,但 是 它 却 
只 能 应 对 很 小 的 一 个 荡 围 ， 而 无 法 正确 处 理 小 于 -2xT 或 大 于 4xTt 的 诸多 情况 : 


if (angle < 0) 
angle += Math.PI; 

else if (angle > 2 * Math.PI) 
angle -= Math.PI; 


我 们 可 以 将 其 改 成 下 面 这 样 : 
while (angle < 0) 
angle += Math.PI; 


while (angle > 2 * Math.PI) 
angle -= Math.PI; 


但 是 这 样 写 太 复杂 了 ， 而 且 当 角 的 值 特别 大 或 特别 小 时 ， 计 算 起 来 较为 缓慢 ， 并 且 不 够 精确 。 我 们 应 该 改 用 下 面 这 种 计算 余 
数 的 做 法 来 把 角 的 值 调整 到 0 至 2xT 之 间 : 


angle = angle - 2 * Math.PI * Math.floor(angle / (2 * Math.PI))); 


BR 


` 不 要 采用 临时 代码 米 绕 开 程 序 的 表面 症状 ， 而 是 要 查找 bug 的 深层 原因 并 加 以 修复 。 


采用 通用 的 办 法 来 处 理 复 杂 的 情况 ， 而 不 要 只 修复 其 中 的 茶 些 特例 。 


Ok ”编译 时 的 调试 扩 术 


如 果 把 源 代码 转变 成 可 以 在 CPU 或 抽象 虚拟 机 (QVM) 上 面 运行 的 字 书 码 ， 那 我 们 束 能 够 充分 地 观察 程序 的 行为 及 其 对 
运行 结果 所 造成 的 影响 。 这 两 个 方面 都 有 助 于 我 们 详细 探查 当前 正在 调试 的 问题 。 


第 50 条 : 对 生成 的 代码 进行 检视 


代码 通常 要 经 过 一 系列 的 转换 ， 才 能 够 最 终 变 成 处 理 器 指令 ， 在 这 个 转换 的 过 程 中 ， 它 会 以 不 同 的 形式 而 存在 。 例 如 ，C 或 
C++ 文件 可 能 需要 先 接 受 预 处 理 ， 然 后 编译 成 汇编 语言 ， 接 下 来 ， 再 组 合 到 一 份 目 标 文 件 中 ; Java 程 序 会 编译 成 VM 指令 ， 
来 生成 词法 分 析 器 和 语法 分 析 器 的 那些 工具 (如 lex、flex、jacc 和 bison) ， 会 把 输入 给 它们 的 内 容 编译 成 C 或 C++。 我 们 可 以 
通过 各 种 命令 及 选项 来 观察 这 个 转换 过 程 ， 并 查看 该 过 程 所 生成 的 中 间 代 码 ， 以 便 形成 一 些 对 调试 工作 很 有 帮助 的 想法 。 


现在 我 们 来 考虑 经 过 预 处 理 的 C 或 C++ 源 人 代码。 运行 C/C++ 编译 器 的 时 候 ， 只 需要 添加 一 个 选项 ， 就 可 以 把 预 处 理 之 后 的 
源 代码 显示 出 来 ， 在 Unix 系 统 中 ， 这 个 选项 是 -E， 对 于 Microsoft 的 编译 器 来 说 ， 这 个 选项 是 /E。 (在 Unix 系 统 中 ， 我 们 也 可 以 
通过 cpp 命 令 来 直接 运行 针对 C 语 言 的 预 处 理 程序 。) 如 果 编 译 器 显示 出 来 的 代码 有 很 多 行 ， 那 么 可 以 把 结果 重 定向 到 文件 中 ， 
以 便 稍 后 能 够 在 编辑 器 里 面 仔 细 检 人 视 其 内 容 。 下 面 举 一 个 例子 ， 告 诉 大 家 应 该 怎样 查看 预 处 理 之 后 代码 并 找寻 其 中 的 错误 。 


#define PI 3.1415926535897932384626433832795; 
double toDegrees = 360 / 2 / PI; 
double toRadians = 2 * PI / 360; 


用 Visual Studio 2015 编 译 器 来 编译 上 述 代 码 ， 会 产生 一 个 看 上 去 (可 能 ) 比较 奇怪 的 错误 : 
t.c(3) : error C2059: syntax error: ‘/' 


如 果 你 去 查看 编译 器 预 处 理 之 后 的 结果 ， 残 会 友 现 ， 上 述 错误 是 / 左 侧 的 分 号 引起 的 ， 它 之 所 以 会 出 现在 这 里 ， 是 由 于 我 们 


在 定义 宏 的 时 候 ， 多 写 了 一 个 分 号 。 
Flie 2 “tye 


double toDegrees 360 / 2 / 3.1415926535897932384626433832795; ; 
double toRadians = 2 * 3.1415926535897932384626433832795; / 360; 


第 三 方 的 头 文件 可 能 含有 复杂 的 安 及 定义 ， 这 些 内 容 在 展开 时 或 许 会 出 销 ， 而 刚才 所 讲 的 这 个 扩 巧 ， 则 特别 适合 用 来 调试 这 
些 错 误 。 但 是 ， 如 果 展开 之 后 的 代码 太 多 (通常 情况 下 确实 很 多 ) ， 那 束 很 难 在 其 中 找到 有 问题 的 那 部 分 代码 了 。 这 种 情况 下 ， 
有 一 个 办 法 是 在 无 法 编译 的 那 一 行 源 代 码 附近 ， 寻 找 某 个 与 安 无 天 的 标识 符 或 字符 串 〈 对 于 刚才 那个 例子 来 讽 ， 我 们 可 以 搜寻 
toRadians) ， 甚 至 还 可 以 在 你 所 关注 的 那 部 分 源 代码 附近 ， 添 加 一 条 纯粹 起 标识 作用 的 声明 语句 ， 以 便 能 够 在 预 处 理 之 后 的 代 
码 里 面 ， 迅 速 地 跳 转 到 这 个 地 方 。 


我 们 也 可 以 在 经 由 预 处 理 或 其 他 方式 所 生成 的 代码 中 删除 #line 指 令 ， 以 便 更 好 地 寻找 其 中 的 错误 。 预 处 理 后 的 文件 里 面 所 
包含 的 #line 指 令 ， 能 够 使 编译 器 明日 : 它 当 前 所 读 到 的 这 行 代码 ， 在 其 原始 文件 里 面 究竟 位 于 哪 一 行 上 面 。 有 了 这 个 信息 之 
后 ， 编 译 器 上 友 现 错误 时 ， 融 会 精确 地 指出 错误 代码 在 其 原始 文件 中 的 位 置 ， 而 不 会 给 出 这 行 代码 在 预 处 理 之 后 的 文件 中 所 处 的 位 
置 。 然 而 ,我 们 有 的 时 候 就 是 想 要 知道 错误 代码 在 预 处 理 后 的 文件 里 所 处 的 位 置 ， 而 不 想 在 错误 消息 里 面 看 到 该 代码 在 原始 文件 
中 的 位 置 。 于 是 ， 可 以 通过 -P (适用 于 Unix 系 统 ) 或 /EP 选项 (适用 于 Microsoft 的 编译 器 ) 来 命令 编译 器 不 要 输出 #line 指 令 。 


在 其 他 情况 下 ， 可 能 还 需要 查看 生成 之 后 的 机 器 指令 。 这 也 可 以 帮助 我 们 发 现 一 些 平常 找 不 出 来 的 低级 错误 。 比 如 ， 我 们 可 
能 是 在 看 了 机 器 指令 之 后 ， 才 友 现 上 自己 用 错 了 某 个 操作 符 、 写 氏 了 某 个 数值 类 型 ,或 是 漏 挥 了 某 个 括号 或 某 条 break 语 句 。 查 看 
机 器 码 ， 还 可 以 帮 有 我 们 调试 一 些 与 底层 有 关 的 性 能 问题 。Unix 编 译 器 的 -3 选项 和 Microsoft 编 译 器 的 /Fa 选项 ， 可 以 显示 编译 器 
所 生成 的 汇编 代码 。 如 果 使 用 GCC 的 时 候 ， 想 得 看 采用 Intel 语 法 而 非 Unix 语 法 所 写 的 汇编 代码 (参见 第 37 条 ) ， 那 么 可 以 在 调 
用 gcc 时 指定 -masm=intel 选 项 。 对 于 编译 成 VM 字 忆 码 的 语言 来 说 ， 可 以 在 相应 的 类 文件 上 面 调用 市 有 -c 选 项 的 avap 指 令 。 
尽管 汇编 代码 看 上 去 比较 难 懂 ， 但 你 如 果 试 着 把 这 些 指令 与 源 代码 对 应 起 来 ， 那 么 很 容易 束 能 看 出 它们 的 功能 ， 对 于 通常 的 调试 
TERK, WUE TS. 


现在 举 一 个 例子 。 下 面 是 一 段 看 上 去 (可 能 ) 没有 太 大 问题 的 Java 代 码 ， 这 段 代 码 用 来 构建 一 个 很 长 的 空 字符 串 。 


class LongString { 
public static void main(String[] args) { 


String s = ""; 
for (int 1 = 0; 1 < 100000; i++) 
S += H Fy 


然而 在 笔者 的 计算 机 上 面 ， 这 段 程序 竟然 化 了 九 秒 多 才 执 行 完 。 为 了 得 明 原 因 ， 我 们 针对 编译 后 的 类 文件 来 运行 javap-c 
Longstring 命 令 ， 以 查看 其 中 所 包含 的 JVM 指 令 。 该 命令 会 输出 程序 清单 6.1 这 样 的 内 容 。 


程序 清单 6.1 


有 反 汇 编 后 的 Java 代 人 码 


class LongString { 


public static void main(java.lang.String[]); 
Code: 


Idc #2 // String 
: astore_l 
iconst_0 
istore_2 
1load_2 
Idc #3 // int 100000 
if_icmpge 37 
: new #4 // class StringBuilder 
: dup 
: invokespecial #5 // Method StringBui lder."<init>":QV 
: aload_l 


Method StringBui lder.append: (CLString; )LStringBui Ider; 
: invokevirtual #6 

: Idec #7 // String 

Method StringBuilder.append: (LString;)LStringBui Ider; 
: Invokevirtual #6 


// Method StringBuilder. toString: OLString; 
27: invokevirtual #8 
30: astore_l 


STs Tite 2: 1 
34: goto 5 
37: return 


大 家 可 以 看 到 ， 在 5 ~ 34 号 字 忆 所 表示 的 这 个 循环 中 ， 编 译 器 会 元 创建 一 个 新 的 StringBuilder 对 象 (11 ~ 155575) ， 然 
后 把 s 添 加 到 对 象 尾部 (18 ~ 19 号 字 节 ) ， 接 下 来 将 添加 到 对 象 尾部 (22 ~ 24 号 字 节 ) ， 最 后 把 该 对 象 转换 成 string (27 号 字 
P) 并 把 结果 存 回 s (30 号 字 节 ) 。 由 此 可 见 ， 循 环 体 中 的 代码 ， 实 际 上 残 相当 于 下 面 这 条 开销 很 大 的 Java 语 名 : 


s = new StringBuilder().append(s).append(" ").toStringQ ; 


我 们 可 以 把 stringBuilder 构 造 器 和 字符 串 转换 操作 从 循环 里 面 拿 出 来 ， 于 是 残 得 到 了 下 面 这 段 效 率 更 局 的 等 价 代 码 ， 它 几 
乎 可 以 瞬间 执行 完 侍 。 


StringBuilder sb = new StringBui lder() ; 

for (int i = 0; 1 < 100000; i++) 
sb.append(" "); 

$ = sb.toString(; 


BR 


查看 自动 生成 的 代码 ， 以 理解 源 代码 中 与 之 对 应 的 编译 时 和 运行 时 间 题 。 


第 51 条 : 使 用 评 态 程序 分 析 工 具 


用 工具 来 其 你 进行 调试 ， 这 种 想法 听 上 去 似乎 太 过 美妙 ， 但 实际 上 ， 确 实 是 有 可 能 做 到 的 。 有 很 多 所 谓 的 静态 分 析 工 具 ， 可 
以 在 不 运行 代码 的 前 提 下 (这 也 残 是 “静态 ”一 词 的 侣 义 ) ， 对 代码 进行 扫 摘 ， 并 上 友 现 其 中 较为 明显 的 bug。 其 中 的 某 些 工具 ， 
或 许 已 经 成 为 了 基本 调试 环境 中 的 一 部 分 ， 因 为 当前 的 编译 器 与 解释 器 ， 通 单 本 身 融 能 够 执行 一 些 简单 的 静态 分 析 。 此 外 ， 还 有 
一 些 独立 的 工具 可 供 选用 ， 例 如 ，GrammaTech 的 CodeSonar、Coverity Code Advisor, FindBugs, Polyspace Bug 
Finder， 以 及 种 种 以 “lint” 结 尾 的 程序 。 这 些 分 析 工 具 会 根据 形式 化 方法 (也 就 是 那 种 基于 大 量 数 学 运算 的 算法 ) 以 及 局 上 友 式 
方法 (heuristic， 这 是 个 听 起 来 很 高 端的 词 ， 实 际 上 指 的 丈 是 那 种 较为 合理 的 猜测 而 已 ) 来 执行 操作 。 按 道理 来 襄 ， 我 们 应 该 在 
软件 开发 的 全 过 程 中 持续 使 用 静态 分 析 工 具 ， 以 确保 代码 干净 整洁 ， 如 果 做 不 到 这 一 点 ， 也 可 以 单单 在 调试 环节 使 用 这 些 工具 ， 
以 查找 那些 很 容易 忽视 的 bug， 诸 如 与 并 友 有 关 的 问题 (参见 第 62 条 ) 以 及 那些 有 可 能 导 致 内 存 遭 到 破坏 的 问题 。 


某 些 静态 分 析 工 具 可 以 检查 出 上 百 种 不 同 的 bug。 下 面 列 出 其 中 几 种 较为 重要 的 bug， 并 给 出 一 些 入 单 的 学 例 。 在 实际 工作 
中 ， 与 这 些 错误 有 关 的 代码 ， 通 常 都 会 和 其 他 代码 纠缠 在 一 起 ， 或 是 会 出 现在 项 目 中 的 很 多 个 例 程 里 面 。 


- 对 null 进 行 解 引 用 操作 。 


Order o = null; 
if (x) 
o = new Order(); 
o.methodCallQ); // o might still be null 


. 并 发 错误 与 竞争 条 件 (race condition) 。 


class SpinWwait { 

private boolean ready; 

public void waitForReady() { 
/* 
* The Java compiler is allowed to hoist the field read 
* out of the loop, making this an infinite loop. Calls 
* to wait and notify should be used instead. 
wf 
while (!ready) 


“ 在 不 需要 明确 声明 变量 的 编程 语言 中 ， 使 用 拼写 有 误 的 变量 名 。 


if (!colour) 
color = getColor(); // Tested colour, but set color 


| 用 错误 的 值 来 充当 数组 或 内 存 缓冲 区 的 下 标 (index) 。 


int[] a = new int[10]; 
for (1 = 0; i <= a.length; i++) 
a[i] = 1; // ala. length] uses an out of bounds index 


. 错误 的 条 件 语句 、 和 循环 语句 、case 语 句 ， 以 及 永远 不 会 执行 到 的 代码 。 


for (;;) 
n += processRequest(); 
return n; // This stament will not be executed 


. 未 处 理 的 异常 。 


public void readData(java.1o.InputStream is) { 


try { 
1is.read(); 
} catch (java.i10.IOException ex) { 


// The exception is ignored 
} 
} 


没有 用 到 的 变量 和 例 程 。 


int d = 1; 
int q =n / --d; // Division by zero 
` 代码 重复 。 


` 在 实现 类 的 时 候 ， 豆 记 了 本 来 应 该 编写 的 那些 例 行 代码 (boilerplate) ， 上 比如， 在 C++ 程序 中 没有 遵循 Rule of three (三 法 


则 ) /Rule of0 ( 零 法 则 ) H, 在 Java 代 码 中 没有 同时 实现 equals 方 法 及 hashCode 方 法 等 。 


void writeDone() 


{ 

FILE *f = fopenC"myfile", "w"); 

fprintf(f, "“Done\n"); 

return; 

// The opened file stream cannot be closed 
} 
/* 


* Input longer than the buffer size will overflow the 
buffer allowing a stack smashing attack. 

Ei 

gets (buff); 


与 特定 的 编程 语言 有 关 的 问题 。 


public static void main(String[] args) { 
// This compares objects rather than strings 
if (args[0] == “--help") 


要 注意 的 是 ， 代 码 分 析 工 具 可 能 会 错过 人 类 能 够 发 现 的 某 些 bug (这 叫做 假 阴性 ，false negative) ， 也 有 可 能 会 针对 正确 
的 代码 发 出 警告 (这 叫做 假 阳 性 ，false positive) 。 比 如 ，4.8.3 版 本 的 GCC， 就 找 不 出 下 面 这 个 函数 中 的 问题 。 该 函数 的 问题 
EF: 程序 运行 到 函数 尾部 时 ， 变 量 r 可 能 仍然 没有 正确 地 初始 化 。 


int 
myFunction(Cint c) 
{ 

int r; 

If (c) 

F = 0: 

return r; 

} 


与 乙 形成 对 照 的 是 ，Visual Studio 2015 的 C 语 言 编 译 器 ， 有 时 会 针对 正确 的 代码 给 出 警告 。 如 下 面 这 个 阔 数 。 当 程序 运行 


到 消 数 尾部 时 ， 变 量 r 应 该 已 经 得 到 了 J 正确 的 初始 化 ， 但 是 编译 器 依然 会 给 出 警告 ， 说 该 变量 有 可 能 没有 初始 化 。 


int 
myFunction(Cint c) 
{ 
int r, c2 = 0; 
if (c) 
r= 9; 
else 
c? = 1; 
1f (c2) 
į = 0; 
return r; 
} 


没有 哪 一 种 静态 分 析 工 具 是 完美 的 ， 因 为 它们 都 要 受到 实际 因素 和 理论 因素 这 两 个 方面 的 限制 。 从 前 一 方面 来 说 ， 由 于 执行 
路 径 的 数量 会 呈 指 数 式 增长 ， 因 此 ， 要 想 把 程序 可 能 具备 的 所 有 状态 全 都 探索 到 ， 需 要 相当 大 的 内 存 。 从 后 一 万 面 来 说 ， 由 于 某 
些 底层 问题 本 身 束 是 不 可 判定 的 ， 因 此 无 论 及 用 什么 样 的 算法 都 不 能 够 正确 地 求解 。 由 此 可 见 ， 尽 管 静 态 分 析 工 具 对 调试 工作 很 
有 帮助 ， 但 有 的 时 候 ， 你 必须 目 己 来 判断 这 些 工具 所 给 出 的 结果 ， 并 且 要 注意 它们 所 无 法 探查 到 的 那些 情况 。 


要 想 体 会 到 充 仿 分 析 工 具 所 市 来 的 好 处 ， 你 首先 应 该 关注 自己 当前 正在 使 用 的 这 球 编 译 器 或 解释 器 。 它 们 或 许 会 提供 一 些 选 
项 ， 用 来 对 代码 执行 更 为 严格 的 检查 ， 并 且 会 在 上 友 现 可 疑 代 码 时 给 出 警告 。 例 如 : 


- 对 于 GCC、gpghc (Glasgow Haskell Compiler) 及 clang (为 LLVM 编 译 器 而 开发 的 前 端 程序 ， 支 持 C 系 列 的 编程 语言 ) Rit, 
可 以 从 -Wall、-Wextra 及 -Wshadow 这 样 的 选项 入 手 (此 外 还 有 很 多 类 似 的 选项 可 供 选 用 ) 。 


- 对 于 Microsoft 的 C/C++ 二 编译 器 来 说 ， 对 应 的 选项 是 /Wall 和 /W4。 
- 在 JavaSctipt 程 序 中 ， 可 以 通过 "use stric"; 指令 来 开 居 严格 模式 〈 就 是 市 双 引 号 的 ) o 


| 在 Perl 程序 中 ， 可 以 使 用 use strict; feuse warnings; 指令 来 进行 更 为 严格 的 检查 。 (Ped 和 JavaSctipt 的 那些 选项 ， 会 同时 执 
行 静态 检查 与 动态 检查 。) 使 用 编译 器 时 ， 也 可 以 指定 一 种 较 高 的 优化 级 别 ， 邻 其 能 够 进行 菜 些 特定 的 分 析 ， 这 些 分 析 ， 有 助 于 
编译 器 针对 源 代码 给 出 一 些 警 告 。 如 果 警 告 的 级 别 可 以 调整 ， 那 么 应 该 尽量 调 高 ， 只 是 要 注意 ， 不 要 过 多 地 生成 一 些 与 待 解决 的 
问题 无 关 的 警告 信息 。 看 到 这 些 警告 信息 之 后 ， 就 应 该 有 条 理 地 去 解决 它们 。 这 样 做 ， 或 许 能 够 解决 你 当前 正在 调试 的 这 个 问 
题 ， 或 是 可 以 令 你 更 为 容易 地 看 到 将 来 有 可 能 出 现 的 问题 。 


把 管 告 消除 干净 之 后 ， 可 以 趁势 调整 编译 器 的 选项 ， 令 其 将 所 有 的 警告 都 视 为 错误 (Microsoft 的 编译 器 使 用 /WX 选 
项 ，GCC 使 用 -Werror 选 项 ) 。 开 局 该 选项 之 后 ， 和 警告 信息 整 不 会 淹没 在 见长 的 输出 文字 中 了 ， 而 是 会 直接 令 编 译 器 报错 ， 从 而 
迫使 开 友 者 必须 写 出 绝对 不 会 引 帮 警告 的 代码 。 


把 编译 器 配置 好 ， 可 以 令 你 享受 到 它 所 审 来 的 很 多 好 处 ， 然 而 在 这 个 基础 上 ， 还 可 以 考虑 再 配置 一 些 分 析 工 具 。 这 些 工 具 可 
能 要 花 更 长 的 时 间 来 检测 bug， 而 且 有 可 能 出 现 更 多 的 误 报 。 维 基 百 科 的 static analysis tools 页 面 列 出 了 上 百 种 工具 ， 其 中 既 有 
Coverity Code Advisor 这 样 的 流行 商业 产品 ， 又 有 FindBugs 这 样 的 知名 开源 软件 。 某 些 工具 专注 于 寻找 特定 类 型 的 bug， 如 安 
全 漏洞 或 并 发 问题 。 你 要 选择 符合 自己 需求 的 工具 ， 而 且 有 的 时 候 ， 应 该 把 几 种 互补 的 工具 结合 起 来 使 用 ， 以 便 发 现 更 多 的 
bug。 此 外 ， 还 应 该 花 些 功夫 把 每 一 个 工具 都 配置 好 ， 将 那些 与 自己 的 编程 风格 不 符 的 警告 选项 关 掉 ， 以 尽量 减少 误 报 的 情况 。 


最 后 ， 要 把 静态 分 析 环 节 ， 配 置 成 构建 软件 系统 时 所 应 执行 的 一 个 步 又， 并 且 令 其 成 为 持续 集成 的 一 个 部 分 。 通 过 调整 软件 


项 目的 构建 配置 ， 开 友 者 可 以 对 检测 代码 所 用 的 静态 分 析 工 具 进行 统一 的 管理 ， 而 且 这 些 工 具 也 有 可 能 会 在 持续 集成 的 过 程 中 ， 
找到 开 友 者 原来 没有 友 现 的 一 些 问题 ， 并 立刻 给 出 汇报 。 这 样 做 使 我 们 总 是 能 够 保证 : 软件 项 目 里 面 不 会 舍 有 静态 分 析 工 具 所 能 
个 得到 的 错误 。 要 注意 防止 这 样 一 种 情形 : 项 目 团 队 (可 能 为 了 寻找 某 个 难于 捕获 的 bug， 从 而 ) 决心 伦 很 大 的 力气 来 扫除 这 些 
由 序 仿 分 析 工 具 所 指出 的 错误 ,但 是 却 没 有 能 够 坚持 把 它们 清除 和 干净， 于是， 又 会 有 新 的 错误 在 代码 中 兹 生 。 


要 后 
“ 某 些 专用 的 静态 程序 分 析 工 具 ， 有 可 能 会 找到 很 多 潜在 的 bug， 其 数量 要 比 编译 器 所 能 给 出 的 警告 更 多 。 
` 把 编译 器 配置 好 ， 令 其 能 够 对 程序 进行 适当 的 分 析 ， 并 找 出 其 中 的 bug。 
` 至 少 要 将 一 款 静 态 程序 分 析 工 具 ， 纳 入 你 的 构建 流程 和 持续 集成 流程 中 。 


[1] 也 就 是 说 ， 要 么 同时 实现 析 构 函数 、 复 制 构 造 函 数 和 赋值 运算 符 这 三 者 (三 法 则 ) ， 要 么 任何 一 个 都 不 要 实现 ( 零 法 则 ， 也 
称 为 Rule of Zero) o 译 者 注 


第 52 条 : 对 项 目 进 行 配置 ， 令 程序 能 够 以 固定 的 万 式 构 建 和 执行 


下 面 这 个 程序 ， 会 打印 出 与 自身 的 栈 、 堆 、 代 码 及 数据 有 关 的 内 存 地 址 。 


#include <stdio.h> 
#include <stdlib.h> 


int Z; 
int 1 = 1; 
const int c = 1; 


int 

main(int argc, char *arg[]) 

{ 
printfC"stack:\t%p\n", (void *)&argc); 
printfC"heap:\t%p\n", malloc(1)); 
printfC'code:\t%p\n", (void *)main); 
printfC"data:\t%p Cinitialized)\n", (void *)&1); 
printfC"data:\t%p Cconstants)\n", (void *)&c); 
printfC"data:\t%p (Czero)\n", (void *)&z); 
return 0; 

} 


在 许多 开发 环境 下 ， 每 次 运行 这 个 程序 所 得 到 的 结果 都 各 不 相同 。 (笔者 在 GNU/Linux 系 统 的 GCC，OS X 系 统 的 clang 以 
及 Windows 系 统 的 Visual C 下 面试 过 了 ， 都 是 如 此 。) 


$ dbuild 

stack: OO3AFDF4 

heap: 004C2200 

code: 00CB1000 

data: OOCBBOOO (initialized) 
data: OOCB8140 (constants) 
data: OOCBCACO (zero) 

$ dbuild 

stack: 0028FC68 

heap: 00302200 

code: 01331000 

data: 0133B000 (initialized) 
data: 01338140 (constants) 
data: 0133CACO (zero) 


之 所 以 会 出 现 这 种 现象 ， 是 因为 操作 系统 的 内 核 每 次 都 会 把 程序 加 载 到 内 存 中 某 个 随机 的 地 址 上 面 ， 以 防止 那 种 针对 程序 码 
所 友 起 的 恶意 攻击 。 这 种 代码 注入 攻击 ， 是 想 用 有 意 代码 来 填 满 程序 的 缓冲 区 ， 并 使 其 溢出 ， 然 后 诱导 这 个 程序 去 执行 滩 出 后 的 
那些 代码 。 如 果 程 序 中 的 各 个 部 分 每 次 都 出 现在 内 存 里 的 固定 位 置 上 面 ， 那 么 这 样 的 攻击 束 很 容易 实施 。 因 此 ， 为 了 进行 反 制 ， 
某 些 内 核 会 随机 安排 程序 的 内 存 布局 ， 以 防止 这 种 通过 硬 编码 的 内 存 地 址 来 进行 的 注入 式 攻 击 。 


然而 问题 在 于 ， 这 种 地 址 空间 布局 随机 化 (address space layout randomization, ASLR) 措施 ， 也 有 可 能 对 调试 工作 起 
到 干扰 作用 。 例 如 ， 它 会 使 我 们 在 某 一 次 运行 程序 时 所 看 到 的 故障 ， 不 会 友 生 在 下 一 次 的 运行 过 程 中 ; 会 使 我 们 费心 记录 下 来 的 
旨 针 值 ， 在 下 一 次 运行 程序 的 时 候 发 生 改 变 ; 会 使 基于 内 存 地 址 所 构造 出 来 的 哈 希 表 ， 在 下 一 次 运行 程序 时 以 其 他 方式 得 到 填 
充 ; 也 会 使 某 些 内 存 省 理 器 的 行为 ， 在 每 次 运行 程序 时 都 有 所 区 别 |。 


因此 ， 在 调试 程序 了 时， 我 们 有 可 能 想 要 使 程序 的 行为 能 够 在 历次 的 执行 过 程 中 保持 稳定 ， 如 果 正 在 调试 的 是 与 内 存 有 关 的 问 
题 ， 那 就 更 应 该 如 此 。 在 GNU/Linux 系 统 中 ， 可 以 采用 下 面 这 种 方式 来 运行 程序 ， 以 禁用 ASLR: 


setarch $(uname -m) -R myprogram 


在 Visual Studio 平 台中 ， 你 可 以 在 链接 代码 时 指定 /DYNAMICBASE: NO 选项 ， 以 禁用 ASLR 功 能 ， 也 可 以 通过 设置 开发 项 
目的 Configuration Properties-Linker-Advanced-Randomized Base Address 选 项 来 实现 。 某 些 版 本 的 Windows 系 统 有 一 个 
注册 表 项 ， 可 以 在 整个 系统 里 面 禁 用 
ASLR (HKLM/SYSTEM/CurrentControlSet/Control/SessionManager/MemoryManagement/Movelmages) 。 在 OS XK 
统 上 面 ， 你 需要 通过 编译 器 的 -WI 标志 来 把 -no_pie 选 项 传 给 链接 器 ， 也 就 是 说 ， 你 需要 按照 下 面 这 种 方式 来 进行 编译 : 


-W1l,-no_pie -o myprogram myprogram.c 
在 用 同一 份 源 代码 来 构建 应 用 程序 时 ， 还 有 一 些 因 素 也 会 使 得 每 次 构建 出 来 的 程序 有 所 不 同 ， 所 幸 其 幅度 没有 内 存 地 址 方面 
的 区 别 那 么 大 。 下 面 列 出 一 些 有 代表 性 的 地 方 : 


-GCC 会 随机 选取 一 个 独特 的 符号 名 称 ， 并 将 其 放 在 每 一 份 编译 好 的 文件 中 。 你 可 以 通过 -ftandom-seed 标 志 ， 把 这 些 名 称 


定 下 来 。 


` 输入 给 编译 器 的 文件 顺序 可 能 有 所 不 同 。 如 果 有 待 编译 或 有 待 链接 的 文件 ， 是 通过 Makefile 的 通配符 扩展 机 制 来 指定 的 ， 
那么 它们 之 间 的 顺序 ， 就 会 有 可 能 因为 目录 中 的 项 目 发 生 重 排 而 得 以 改变 。 若 想 把 顺序 固定 下 来 ， 你 可 以 明确 地 列 出 这 些 文件 ， 
也 可 以 对 扩展 后 的 文件 进行 排 友 。 


.在 软件 中 用 来 表示 版 本 的 时 间 殿 ， 会 随 着 构建 软件 的 时 间 而 发 生变 化 ， 如 _DATE。 和 TIME。 这 两 个 宏 就 是 如 此 。 如 
果 你 想 把 它们 固定 下 来 ， 那 么 可 以 改 用 版 本 控制 系统 的 版 本 标识 符 ( 如 Git 的 SHA 校 验 和 ) ， 以 便 能 够 在 有 需要 的 时 候 ， 根 据 该 
标识 符 来 构造 时 间 蕉 。 


JARRA (map) 进行 遍历 后 所 得 到 的 列表 ， 其 元 素 顺 序 可 能 会 有 所 不 同 。 某 些 编程 语言 为 了 防止 算法 复杂 度 攻击 ， 
每 次 都 会 采用 不 同 的 方式 来 为 对 象 进行 哈 希 ， 这 会 导致 每 次 人 遍历 容器 时 所 看 到 的 元 素 顺序 有 所 区 别 。 要 想 解 决 这 个 问题 ， 我 们 可 
以 对 遍历 之 后 所 产生 的 列表 进行 排序 。 对 于 Perl 和 Python 语言 来 说 ， 也 可 以 分 别 通过 设置 PEFRIL_ HASH_SEED 及 


可 


PYTHONHASHSEED 环 境 变 量 来 解决 。 


.加密 盐 (encryption salt， 为 了 加 密 而 引入 的 干扰 因素 ) 。 加 密 程 序 通常 会 采用 随机 得 到 的 某 个 值 (也 就 是 盐 ) 来 对 提供 给 
它 的 数据 进行 扰乱 ， 从 而 防止 那 种 通过 预先 构造 字典 所 实施 的 攻击 (pre-built dictionary attack) 。 在 测试 和 调试 程序 的 时 候 ， 可 
以 关 掉 这 种 扰乱 机 制 。 比 如 ，openssl 程 序 就 提供 了 -nosalt 选 项 。 然 而 要 注意 ， 发 布 到 生产 环境 中 的 程序 ， 不 应 该 使 用 这 个 选项 ， 
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从 镜像 文件 的 一 致 性 方面 来 看 ， 构 建 程 序 的 最 高 标准 ， 是 能 够 在 不 同 的 主机 上 编译 同一 份 源 代 码 ， 并 且 得 到 一 模 一 样 的 软件 
包 。 为 此 ， 我 们 需要 执行 大 量 的 工作 ， 因 为 它 还 涉及 文件 路 径 、 语 言 配置 、 档 案 的 元 数据 、 环 境 变量 以 及 时 区 等 诸多 因素 。 如 果 
你 确实 需要 实现 到 这 种 程度 ， 那 么 可 以 参考 reproducible builds 网 站 ， 该 网 站 提供 了 很 多 可 靠 的 建议 ， 告 诉 你 应 该 怎样 解决 此 


类 问题 。 
要 点 


. 对 软件 的 构建 流程 和 执行 过 程 进 行 配 置 ， 使 其 运行 效果 能 够 重 现 。 


第 53 条 : 对 调试 所 用 程序 库 及 构建 代码 时 所 应 执行 的 检查 进行 配置 


在 对 代码 和 程序 库 进 行 编译 与 链接 时 ， 有 很 多 选项 都 能 对 程序 在 运行 时 所 执行 的 操作 ， 做 出 更 为 严格 的 检查 。 这 些 选 项 ,与 
我 们 在 配置 软件 的 调试 模式 时 所 使 用 的 那些 选项 (参见 第 40 条 ) ， 是 可 以 协同 运作 的 ， 因 此 ， 我 们 在 编译 期 应 该 同时 局 用 这 两 

类 选项 。 本 条 目 所 讲 的 选项 ， 主 要 适用 于 C、C++ 和 Objective-C 语 言 ， 而 这 三 种 语言 为 了 提升 执行 效率 ， 在 一 般 情况 下 ， 不 会 
执行 缓冲 区 越界 检查 ， 因 此 ， 如 果 开局 了 这 些 检查 ， 那 么 程序 可 能 会 运行 得 较为 组 慢 。 在 实时 系统 或 对 性 能 要 求 很 高 的 环境 中 使 
用 这 些 方 法 时 ， 要 多 加 注意 。 下 面 大 家 会 看 到 一 些 常 见 的 配置 方法 ， 在 编译 和 链接 代码 的 过 程 中 ， 可 以 通过 这 些 方 法 来 找寻 与 内 
存 的 使 用 情况 有 关 的 bug.。 


采用 C++ 标 准 模板 库 (STL) 来 编程 时 ， 可 以 对 程序 代码 执行 很 多 种 检查 。 如 果 使 用 的 是 GNU 版 本 ， 那 区 在 编译 代码 时 ， 
定义 名 为 _ GLIBCXX_DEBUG 的 安 ， 如 果 是 在 Visual Studio 环 境 下 编程 ， 那 束 以 debug 模 式 来 构建 项 目 ， 或 把 /MDd 选 项 传 给 编 
译 器 。 局 用 了 这 些 与 STL 有 关 的 检查 之 后 ， 我 们 可 以 在 构建 过 程 中 上 友 现 代码 里 面 的 一 些 问题 ， 例 如 ， 对 迭代 器 进行 越界 的 递增 操 
作 、 对 已 销毁 的 容器 所 对 应 的 迭代 器 进行 解 引用 ， 或 是 违反 算法 的 前 置 条件 等 。 下 面 举 一 个 例子 : 


#include <vector> 


int 

main() 

{ 
Std: :vector<int> v; 
v[O] = 3; 

} 


如 果 用 GCC 编译 该 程序 ， 那 么 它 在 运行 的 时 候 就 会 给 出 内 容 为 “attempt to subscript container with out-of-bounds 
index 0, but container only holds 0 elements” 的 错误 消息 ， 如 果 用 Visual studio 编译 它 ， 那 么 运行 时 的 错误 消息 则 
Æ "vector subscript out of range”。 表 来 看 一 个 例子 。 在 下 面 这 个 程序 中 ， 用 来 求 交集 的 s1 和 s2， 本 来 应 该 是 已 经 排 好 顺序 


的 vector: 


#include <vector> 
#include <algorithm> 
#include <iterator> 


int 

main() 

{ 
Std: :vector<int> sl = {5, 3, 2}; 
std: :vector<int> s2 Che By: OF 
std: :vector<int> result; 


Std: :set_intersection(sl.begin(Q), sl.endQ), 
S2.begin(Q), s2.end(), 
Std: :back_inserter(result)); 


然而 该 程序 并 没有 提前 把 s1 和 s2 排 好 顺序 ， 因 此 ， 如 果 编 译 的 时 候 开 启 了 STL 检 查 选 项 ， 那 么 程序 在 运行 时 ， 束 会 显示 出 内 
ZJ “elements in iterator range[_first1, last1) are not sorted” (适用 于 GCC) 或 “sequence not sorted” (适用 于 
Visual Studio) 的 消息 。 此 外 ， 还 可 以 在 编译 的 时 候 定 义 一 个 名 为 _GLIBCXX_DEBUG_PEDANTIC 的 安 ， 以 便 把 代码 中 所 用 到 
的 某 些 特 性 指出 来 ， 那 些 特性 无 法 移植 到 其 他 的 STL 实 现 版 本 上 面 。 


GNU 的 C 语 言 程 序 库 也 可 以 对 内 存 泄漏 问题 进行 检查 ， 看 看 程序 在 整个 生命 期 里 面 ， 有 没有 把 分 配 过 的 内 存 全 都 释放 掉 。 要 
想 执行 该 检查 ， 我 们 需要 在 程序 开头 调用 mtrace 国 数 ， 然 后 在 运行 程序 的 时 候 ， 设 置 名 为 MALLOC TRACE 的 环境 变量 ， 并 将 
变量 值 设 为 一 个 文件 ， 用 来 保存 这 项 检查 所 输出 的 信息 。 下 面 这 个 程序 ， 在 其 退出 的 时 候 ， 并 没有 把 自己 所 分 配 的 内 存 块 释放 
f: 


#include <stdlib.h> 
#include <mcheck.h> 


int 

main() 

{ 

#ifndef NDEBUG 
mtrace(); 

#endif 
char *c = malloc(42); 
return 0; 


针对 程序 所 生成 的 输出 文件 来 运行 mtrace 命 令 ， 束 可 以 准确 地 看 到 泄漏 的 内 存 块 是 在 什么 地 万 分 配 的 。 


Memory not freed: 


Address Size Caller 
0x090e5378 Ox2a at leak.c:10 


还 有 一 个 更 为 通用 (而 且 开 销 也 更 大 ) 的 办 法 ， 可 以 检测 C 与 C++ 代码 人 在 内 存 访问 方面 的 各 种 问题 ， 这 融 是 
AddressSanitizer (ASan) 。GNU 编 译 器 和 LLVM Clang， 都 可 以 通过 -fsanitize=address 选 项 来 局 用 这 个 检测 系统 。 为 了 获 
得 更 为 清晰 的 结果 ， 还 可 以 同时 开启 -g 与 -fno-omit-frame-pointer 选 项 。 下 面 这 个 程序 会 越过 数组 的 边界 ， 因 为 它 误 把 
sizeof (a) 的 结果 当成 了 数组 的 长 度 (实际 上 ， 还 应 该 把 这 个 结果 与 元 素 的 大 小 相 除 ) : 


int 
main() 
{ 
int 1, a[5]; 
for (i = 0; i < sizeof(a); i++) 
afi] = 1; 
} 


编译 上 述 代码 的 时 候 ， 启 用 AddressSanitizer 机 制 ， 然 后 运行 程序 ， 就 可 以 看 到 下 面 这 样 的 错误 消息 : 


==59468==ERROR: AddressSanitizer: global-buffer-overflow on 
address 0x000100615134 at pc 0x000100614eb0 
WRITE of size 4 at 0x000100615134 thread TO 


#0 0x100614eaf in main oob.c:7 
#1 Ox7fff926fl5ac in start 
#2 0x0 (<unknown module>) 


0x000100615134 is located 0 bytes to the right of global 
variable 'a' defined in ‘oob.c:4:16' (0x100615120) of 

size 20 

SUMMARY: AddressSanitizer: global-buffer-overflow oob.c:7 main 


采用 某 些 编 译 器 进行 编译 时 ， 可 能 需要 再 传 入 一 些 信 息 ， 使 得 错误 报告 中 所 列 出 的 是 源 代 码 的 位 置 ， 而 非 机 器 码 的 内 存 地 
址 。 比 如 ， 你 可 能 要 把 ASAN_SYMBOLIZER PATH 这 个 环境 变量 ， 指 向 某 个 能 够 进行 此 种 映射 的 程序 (如 /usr/bin/llvm- 
symbolizer-3.4) ， 并 且 要 把 ASAN OPTIONS 环 境 变 量 ,， 设 为 symbolize=1。 


4 


很 多 系统 都 支持 AddressSanitizer 功 能 ， 其 中 包括 运行 在 i386 和 x86 64 CPU 上 面 的 GNU/Linux、OS X 以 及 FreeBSD， 也 包 
括 运 行 在 ARM 架 构 上 的 Android， 还 包括 iOS Simulator。AddressSanitizer 会 急剧 增加 程序 的 开销 ， 使 其 对 内 存 和 处 理 器 的 占 
用 量 ， 变 为 平常 的 两 倍 左右 。 但 这 样 做 也 是 有 好 处 的 : 由 于 该 机 制 很 少 会 友 生 误 报 ， 因 此 在 调试 软件 的 过 程 中 ， 可 以 用 它 来 可 靠 
地 搜寻 并 移 除 很 多 与 内 存 有 关 的 问题 。 


Visual Studio 对 内 存 分 配 和 内 存 访问 方面 的 错误 也 可 以 做 出 检查 ， 虽 然 这 套 机 制 并 没有 AddressSanitizer 那 样 强 大 ， 但 是 依 
然 能 够 应 对 很 多 情况 。 要 想 局 用 这 僚机 制 ， 我 们 需要 在 与 C 语 言 调试 库 进 行 链接 的 时 候 ， 传 入 M Dd 选项， 而且 要 像 下 面 这 个 程 
序 一 样 ， 定 义 一 个 妇 ， 并 调用 几 个 适当 的 消 数 : 


// Define in order to get file and line number information 
#define —CRIDBG_MAP_ALLOC 


#include <stdlib.h> 
#include <crtdbg.h> 


int 

main() 

{ 
// Send output to stderr, rather than the VS debug window 
_CrtSetReportMode(_CRT_WARN, —CRTDBG_MODE_FILE) ; 
_CrtSetReportFi leC_CRT_WARN, _CRTDBG_FILE_STDERR) ; 


// Detect memory leaks on exit 
_CrtSetDbgFlag(_CRTDBG_ALLOC_MEM_DF | _CRTDBG_LEAK_CHECK_DF) ; 
{ 

char *c = malloc(42); 

c[42] = 'a'; 
} 
// Check all blocks for memory buffer overflows 
_CrtCheckMemory( ); 


return 0; 


ates, RAS PEARFA Ra, RP S ERDERA AR, 


HEAP CORRUPTION DETECTED: after Normal block (#106) at 
OxO0688EFO. CRT detected that the application wrote to 
memory after end of heap buffer. 


Memory allocated at memerror.c(19). 
Normal located at Ox00688EFO is 42 bytes long. 


Memory allocated at memerror.c(19). 

Detected memory leaks! 

Dumping objects -> 

memerror.c(19) : {106} normal block at Ox0O0688EFO, 
42 bytes long. 


请 注意 ， 这 套 机 制 只 能 识别 出 那 种 在 分 配 好 的 堆 之 外 所 友 生 的 写 入 行为 ， 而 不 能 像 AddressSanitizer 那 样 ， 识 别 出 无 效 的 读 
取 操 作 ， 以 及 对 全 局 内 存 和 栈 内 存 的 无 效 访问 操作 。 


在 OS X 系 统 下 ， 以 及 开发 IOS 应 用 程序 的 时 候 ， 还 有 一 种 办 法 也 可 以 做 内 存 检 测 ， 那 束 是 与 Guard Malloc (libgmalloc) 
程序 库 相 链接 。 这 样 做 会 把 每 一 个 分 配 好 的 内 存 块 ， 都 放 在 单独 的 (也 就 是 不 连续 的 ) 虚拟 内 存 页 面 中 ， 使 得 系统 能 够 探测 到 页 
面 之 外 所 友 生 的 内 存 访问 行为 。 该 方式 在 分 配 内 存 时 ， 会 使 虚拟 内 存 系 统 的 负载 加 大 ， 但 是 在 对 内 存 访问 行为 进行 检查 时 ， 则 不 
需要 占用 额外 的 CPU 资源 。 这 种 方式 适用 于 C、C++ 和 Objective-C 语 言 。 为 了 使 用 这 个 程序 库 ， 我 们 需要 把 环境 变量 
DYLD INSERT _LIBRARIES 的 值 ， 设 为 /usr/lib/libgmalloc.dylib。 还 有 一 些 环境 变量 也 可 以 用 来 对 该 程序 库 的 功能 进行 微调 ， 详 
细 情 况 请 参见 libgmalloc 的 帮助 手册 页 面 。 


例如 ， 如 果 在 构建 下 面 这 个 程序 的 过 程 中 ， 能 够 与 ibgmalloc 库 相连 接 ， 那 么 在 运行 程序 时 ， 系 统 就 会 提示 内 存 区 块 错误 
(segmentation fault) 并 终止 该 程序 。 
int 
main() 


{ 


int *a = new int [5]; 
int t = a[10]; 
return 0; 


得 其 这 个 错误 之 后 ， 我 们 很 容易 束 能 通过 调试 器 来 精确 地 找到 与 该 错误 有 关 的 代码 。 


如 果 上 面 讲 的 那些 机 制 ， 全 都 无 法 在 你 所 处 的 环境 中 使 用 ， 那 么 应 该 考虑 用 一 种 可 以 进行 检查 的 程序 库 来 替换 当前 所 使 用 的 
程序 库 。dmalloc 束 是 个 很 好 的 例子 ， 这 是 一 个 市 有 调试 功能 的 程序 库 ， 可 以 方便 地 蔡 换 C 语 言 默 认 的 内 存 分 配 晃 数 。 


BR 


第 7 草 ” 运 行 时 的 调试 技术 


要 看 程序 有 没有 bug， 最 终 还 是 得 通过 执行 来 做 出 判断 。 把 程序 运行 起 来 之 后 ， 各 个 方面 的 情况 残 可 以 暴露 出 来 了 ， 例 如 ， 
运行 得 是 否 正确 、 对 CPU 和 内 人 存 的 占用 量 是 否 合理 等 ， 此 外 ， 我 们 还 可 以 看 出 它 与 (可 能 包含 bug 的 ) 程序 库 、 操 作 系统 及 硬件 
之 间 的 交互 情况 。 但 是 ， 由 于 计算 机 每 秒 钟 会 执行 数 十 亿 条 指令 ， 因 此 ， 这 些 情况 可 以 说 是 转瞬 即 折 的 。 如 果 你 想 把 它们 捕获 ， 
那 将 是 一 件 很 坏 手 、 很 麻烦 的 事情 ， 有 时 甚 全 完全 无 法 可 靠 地 进行 捕获 。 于 是 ， 我 们 应 该 利用 测试 、 应 用 程序 日 志 以 及 监测 工具 
来 审视 程序 在 运行 时 的 行为 ， 以 便 将 那个 困扰 我 们 的 bug 找 出 来 。 


BOAR: 通过 构建 测试 用 例 来 寻找 请 误 


通过 适当 的 测试 ， 我 们 通常 能 够 找到 乃至 修复 某 个 bug。 有 些 人 把 这 种 方法 称 为 “Defect-Driven Testing” (缺陷 驱动 测 
试 ) ， 它 的 首 字 和 母 缩写 恰好 与 知名 的 杀 虫 剂 一 样 ， 都 叫 DDT。 下 面 给 出 这 种 测试 方法 的 三 个 步骤 ， 并 举 一 个 实际 的 例子 。 这 个 
例子 是 根据 qmcalc 程 序 中 的 真实 bug 改 编 而 来 的 。qmcalc 程 序 能 够 根据 各 种 指标 来 计算 C 语 言 代 码 文件 的 编写 质量 并 给 出 评 
分 ， 然 后 把 这 些 评分 放 在 一 个 以 制 表 符 (tab) 来 分 隔 的 列表 中 。 问 题 是 : 程序 本 来 应 该 输出 110 个 字段 ， 但 是 在 极 个 别 的 情况 
下 ， 其 所 和 输出 的 字段 数量 却 比 较 少 。 


首先 ,创建 测试 用 例 ， 以 便 可 靠 地 重 现 你 想 要 解决 的 问题 。 这 意味 着 我 们 需要 指定 程序 出 错 所 经 的 流程 ， 以 及 展现 该 错误 所 
需 的 材料 (通常 是 数据 ) 。 比 如 ， 某 个 测试 用 例 可 能 会 把 foo 文 件 (这 是 材料 ) 加 载 进来 ， 然 后 依次 按 下 x、y、z 按 钮 ， 使 应 用 
程序 崩溃 (这 是 流程 ) 。 又 如 ， 某 个 测试 用 例会 把 Acme 的 负载 均衡 器 (这 是 材料 ) 运用 到 应 用 程序 上 面 ， 从 而 导致 用 户 刚 开始 
使 用 程序 时 所 需 完成 的 认证 环节 出 错 (这 是 流程 ) 。 


在 接 下 来 要 讲 的 这 个 例子 中 ， 我 们 通过 下 列 命 令 来 针对 Linux 的 所 有 C 语 言 文件 运行 qmcalc 程 序 ， 并 统计 该 程序 为 每 个 文件 
所 生成 的 字段 数量 。 


# Find all C files 

find linux-4.4 -name \*.c | 

# Apply qmcalc on each file 
xargs qmcalc | 

# Display the number of fields 
awk ‘{print NF}' | 

# Order by number of fields 


sort | 
# Display number of occurrences 
uniq -Cc 


IW DMR, RJA, MERE SSN R, ARRAS Ree ee 110789. 


8 100 

19 105 
21772 L10 
12 80 
472 90 


第 二 步 是 简化 测试 用 例 ， 令 其 刚好 能 够 重 现 你 想 要 解决 的 问题 (参见 第 10 条 ) 。 有 两 种 简化 的 办 法 ， 第 一 种 是 从 头 开始 构 
建 测试 用 例 ， 直 到 bug 突 然 出 现 ， 第 二 种 是 逐渐 缩减 现 有 的 测试 用 例 ， 直 到 bug 突 然 消 失 。 此 时 ， 测 试用 例 中 所 合 的 数据 ， 通 弟 
瓯 能够 帮 你 找到 问题 了 ， 甚 全 还 能 够 直接 给 你 捐 出 解决 办 法 。 在 很 多 情况 下 ， 这 两 种 方式 都 可 以 结合 起 来 使 用 ， 也 残 是 移 尽 可 能 
多 地 删 减 测试 代码 ， 等 你 党 得 目 己 已 经 找到 问题 之 后 ， 表 重新 开始 ， 构 建 一 个 最 简 的 测试 用 例 。 


针对 同样 一 个 问题 ， 我 们 采用 下 面 这 些 shell 命 令 把 qmcalc 程 序 所 无 法 正确 处 理 的 首 个 文件 显示 出 来 : 


# Find C files 
find linux-4.4/ -name \*.c | 
# For each file 


while read f ; do 
# If the number of fields is not 110 
if [ $Cqmcalc $f | awk ‘'{print $NF}') != 110 ] ; then 
echo $f # Output the file name 
break # Stop processing 
fi 
done 


aa LORE, RIRI, linux-4.4/drivers/mmc/host/sdhci-pci-o2micro.c. X1} RS amcalar 
出 的 结果 少 于 110 个 字段 。 


如 果 只 从 该 文件 里 取出 一 部 分 内 容 给 qmcalc 处 理 ， 那 还 会 不 会 出 现 同样 的 问题 呢 ? 下 面 这 几 条 命令 ， 会 逐渐 缩减 待 处 理 的 
行 数 ， 并 显示 出 由 qmcalc 程 序 所 生成 的 字段 数量 。 


$ cp linux-4.4/drivers/mmc/host/sdhci-pci-o2micro.c test.c 
$ ./qmcalc test.c | awk '{print NF}' 

Shean -100 test.c | ./qmcalc | awk ‘{print NF}' 

q -10 test.c | ./qmcalc | awk '{print NF}' 

i -1 test.c | ./qmcalc | awk ‘{print NF}' 

63 


接 下 来 ， 手 工 构建 一 个 测试 ， 把 qmcalc 程 序 运用 到 /dewnull 这 个 空 文件 上 面 ， 以 便 继 续 简 化 测试 用 例 。 


$ ./qmcalc /dev/null | awk ‘{print NF}' 
59 


我 们 以 一 种 清晰 的 形式 来 查看 程序 的 输出 结果 ， 这 样 立刻 融会 友 现 其 中 有 一 毕 连 续 出 现 的 制 表 符 ， 而 这 种 现象 ， 很 可 能 说 明 
程序 的 错误 与 一 组 空 字段 有 关 。 


$ ./qmcalc /dev/null | sed -n 1 
O\CO\t\t\t\cO\co\t\t\t\tO\tcO\tcO\cO\tcO\tcO\tO\tO\tO\tO\to\to\t\t\ 
\t\tO\c\t\c\co\e\c\c\co\e\e\c\to\c\t\t\to\to\to\to\to\to\to\to\ 
\tO\tO\tO\tO\tO\tO\tO\tO\tO\tO\tO\tO\tO\tO\tO\tO\tO\tO\toO\to\t\ 
O\tO\tO\tO\tO\tO\tO\tO\tO\tO\tO$ 


于 是 ， 只 要 查看 产 代 码 ， 束 可 以 友 现 问题 的 原因 : 原来 程序 在 输出 描述 性 的 统计 结果 时 ， 并 没有 能 够 正确 地 处 理 空 集 。 它 本 
来 应 该 输出 四 个 字段 分 阳 符 (也 束 是 制 表 符 )， 但 实际 上 只 输出 了 三 个 。 


template <typename T> 
Std: :ostream& 


operator <<(std::ostream& o, const Descriptive<T> &d) { 
if (d.get_count() != 0) 
o << d-get count) << “yt << d.get_min@) we *\t" << 
d.get_mean() << ‘\t' << d.get_maxQ) << '\t' << 
d.get_standard_deviation() ; 


else 
O << UATE = 
return o; 


第 三 步 ， 是 巩固 胜利 成 果 。 把 程序 中 的 问题 隔离 出 来 之 后 ， 要 趁机 给 代码 添加 对 应 的 时 元 测试 或 回归 测试 (参见 第 42 
R) 。 如 果 间 题 与 隔离 出 来 的 这 些 代 码 里 面 的 某 个 错误 有 关 ， 那 束 应 该 添加 对 应 的 单元 测试 ， 如 果 问 题 是 由 多 种 因素 合 起 来 导致 
的 ， 那 么 回归 测试 或 许 更 为 合适 。 这 种 回归 测试 ， 应 该 对 测试 用 例 进 行 打包 ， 使 得 它们 能 够 在 例 行 的 软件 测试 过 程 中 ， 得 以 目 动 
执行 。 当 错误 依然 位 于 代码 中 时 ， 我 们 要 运行 软件 测试 ， 以 确保 该 测试 是 无 法 通过 的 ， 这 样 才能 说明 它 确 实 捕 获 到 了 所 要 解决 的 
问题 ;而 当 我 们 把 错误 修改 好 之 后 ， 该 测试 应 该 束 可 以 正确 地 运行 了 ， 我 们 由 此 也 可 以 确信 ， 上 自己 确实 解决 了 这 个 问题 。 此 外 ， 
这 种 测试 还 能 够 确保 程序 在 以 后 不 会 出 现 同 样 的 问题 。 


笔者 针对 刚才 所 襄 的 那个 问题 ， 给 qmcalc 项 目 中 添加 了 下 面 这 样 一 个 CppUnit 测 试用 例 : 


void testOutputEmpty() { 
Std::stringstream str; 
Descriptive<int> a; 
Str << a! 
CPPUNIT_ASSERT(str.strQ == "O\t\t\t\t"); 


在 没有 修复 错误 代码 之 前 ， 这 个 单元 测试 应 该 是 无 法 运行 通过 的 。 


$ make test 
./UnitTests 


|! | I FAILURES! !! 
Test Results: 
Run: 110 Failures: 1 Errors: 0 


1) test: DescriptiveTest::testOutputEmpty (F) line: 103 
Descriptivelest.h assertion failed 
- Expression: str.strQ@ == O\t\t\t\t 


\ 一 /一 


把 漏 挥 的 那个 字段 分 隅 街 添 上 之 后 ， 代 码 中 的 错误 融 修 复 好 了 ， 而 这 个 测试 用 例 ， 也 能 够 正确 地 运行 了 。 


$ make test 


OK (110 tests) 


用 Andrew Hunt 和 David Thomasivigkitate: “把 所 有 的 测试 都 通过 之 后 ， 代 码 才 算 写 完 。” 


针对 已 经 解决 的 问题 来 添加 测试 用 例 ， 或 许 并 不 是 多 此 一 举 的 事情 。 首 先 ， 你 可 能 会 志 记 修复 某 种 特定 的 情况 ， 而 这 个 测试 
正好 能 够 在 执行 代码 的 时 候 帮 你 找到 那 种 情况 。 其 次 ， 如 果 有 人 对 合并 冲突 没有 做 出 正确 的 处 理 ， 那 么 可 能 会 再 度 引 入 同样 的 错 
误 。 第 三 ， 以 后 也 可 能 有 人 会 出 现 类 似 的 错误 。 第 四 ， 这 种 测试 或 许 还 能 够 捕获 到 与 之 相关 的 其 他 错误 。 因 此 ， 编 写 测试 的 时 
候 ， 真 的 不 能 太 过 简 省 了 。 


用 测试 来 探查 bug 时 ， 我 们 应 该 要 了 解 : 代码 中 的 哪些 部 分 是 实际 上 能 够 测试 到 的 ， 而 哪些 部 分 又 是 不 大 能 够 为 测试 所 禾 竺 
的 。 之 所 以 要 了 解 这 一 情况 ， 是 因为 在 受 测 程度 较 低 的 那 一 部 分 代码 中 ， 有 可 能 隐藏 着 bug。 我 们 可 以 使 用 一 种 能 够 执行 测试 覆 
盖 率 分 析 的 工具 来 掌握 代码 的 受 测 情况 。 这 种 工具 包括 : 适用 于 C 和 C++ 的 gcov (参见 第 57 条 ) 、 适 用 于 Java 的 JCov、JaCoCo 
和 Clover、 适 用 于 .NET 的 NCover 和 OpenCover、 适 用 于 Python 的 coverage 包 ， 以 及 适用 于 JavaScript 的 blanket.js。 


am 
+ 创建 一 个 可 靠 且 最 简 的 测试 用 例 ， 在 这 个 过 程 中 ， 你 有 可 能 会 发 现 程 序 中 的 问题 及 其 解决 办 法 。 


把 测试 用 例 作 为 单元 测试 或 回归 测试 ， 座 入 软件 中 。 


第 55 条 : 令 软 件 企 遇 到 问题 时 尽早 退出 


迅速 而 高 效 地 重 现 问题 ， 有 助 于 提升 调试 的 效率 (参见 第 11 条 和 第 10 条 ) 。 因 此 ,一 旦 友 现 软件 有 出 错 的 迹象 ， 束 应 该 立 
刻 令 其 停止 运行 。 这 样 做 可 以 使 你 更 为 容易 地 找到 与 乙 相对 应 的 错误 ， 因 为 停止 软件 运行 所 用 的 这 部 分 代码 ， 融 是 在 执行 完 错误 
的 代码 之 后 才 得 以 执行 的 ， 有 的 时 候 ， 这 两 者 之 间 的 距离 还 会 相当 接近 。 反 之 ， 如 果 在 软件 遇 到 小 问题 的 时 候 ， 听 任 其 继续 执 
行 ， 那 束 会 使 软件 进入 未 知 的 状态 中 ， 进 而 引 友 一 系列 其 他 的 问题 ， 这 导致 我 们 很 难 找到 最 初 的 那个 bug。 


使 软件 尽早 暴露 出 故障 ， 有 可 能 会 把 你 引 向 与 待 解 决 的 这 个 问题 无 关 的 其 他 问题 上 面 。 然 而 ， 你 依然 可 以 先 把 那个 问题 修复 
了 ， 然 后 重新 局 动 调试 流程 ， 这 样 做 至 少 能 够 永久 地 排除 一 项 疑点 。 如 果 能 够 逐渐 地 消除 这 些 问 题 ， 那 么 你 融会 在 调试 的 过 程 中 
寺 续 取得 进展 。 有 反之， 若是 一 直 把 这 些小 问题 拖 着 不 管 ， 则 述 早 会 酿 成 大 错 。 

下 面 这 些 办 法 可 以 使 程序 尽快 暴露 出 其 中 的 错误 : 


添加 并 启用 断言 语句 ， 以 验证 输入 给 例 程 的 参数 以 及 对 API 的 调用 是 否 正 确 ( 参 见 第 143 条 ) 。 对 于 Java 语 言 来 说 ， 可 以 在 
运行 的 时 候 通 过 -ea 选项 来 启用 断言 。 对 于 C 和 C++ 语言 来 说 ， 通 第 可 以 在 编译 的 时 候 ， 取 消 对 NDEBUG 宏 标识 符 的 定义 ， 以 局 用 


断言 功能 。 (在 构建 production 版 本 的 程序 时 ， 该 标识 符 通常 是 已 定义 好 的 。) 
- 对 程序 库 进行 配置 ， 令 其 对 自身 的 用 法 执行 严格 的 检查 (参见 第 53 条 ) 。 
用 动态 程序 分 析 工 具 来 检查 程序 所 执行 的 操作 (参见 第 59 条 ) 。 
- 启动 Unix shell 的 时 候 ， 开 启 -e 选 项 ， 使 得 该 shell 能 够 在 脚本 命令 发 生 错 误 时 (也 就 是 其 退出 状态 码 非 0 的 时 候 ) 终止 。 


请 注意 ， 对 于 自 成 一 体 的 程序 来 说 , 令 其 在 遇 到 错误 时 尽快 退出 ， 是 一 种 可 以 提高 调试 效率 的 做 法 ， 然 而 ， 这 对 于 那 种 已 经 
从 开发 环境 搬移 到 维护 环境 中 的 大 型 生产 系统 来 说 ， 可 能 就 不 太 合适 了 。 在 那 种 情况 下 ， 最 先 保证 的 应 该 是 程序 的 恢复 能 力 ， 也 
就 是 说 ， 当 程序 发 生 小 的 错误 〈 例 如， 加载 图 标 时 出 现 问题 ， 或 是 多 个 服务 器 进程 中 的 某 一 个 发 生计 溃 ) 时 ， 我 们 通常 应 该 容许 
它 继续 执行 ， 而 不 是 令 整个 系统 都 停止 运行 。 我 们 可 以 通过 其 他 措施 来 与 这 种 较为 宽松 的 操作 模式 相 平衡 ， 如 进行 广泛 的 监测 
(参见 第 27 条 ) 及 日 志 记 录 (参见 第 56 条 和 第 41 条 ) 等 。 


BR 


` 调试 程序 的 时 候 应 该 设置 一 些 机 关 ， 使 得 程序 能 够 在 刚刚 有 出 错 的 迹象 时 ， 就 退出 。 


第 26 条 : 检视 应 用 程序 的 日 忘 文件 


有 很 多 程序 要 在 后 台 执 行 复杂 的 处 理 ， 并 且 没 有 提供 通过 控制 台 来 进行 访问 的 机 制 ， 这 些 程序 会 把 它们 所 执行 的 操作 ， 写 到 
某 个 文件 或 某 种 特殊 的 日 志 收 集 设施 中 。 这 些 日 志文 件 里 面 的 内 容 ， 使 我 们 能 够 了 解 该 程序 的 实际 执行 情况 ， 并 且 能 够 根据 目 己 
的 需要 来 对 一 系列 的 事件 进行 分 析 。 当 程序 出 现 故 障 之 后 ， 我 们 有 可 能 会 在 日 志 中 发 现 一 条 错误 消息 或 警告 消息 ( 例 
如 ，“Unable to connect to example.com: Connection refused” “无 法 连接 到 example.com ， 连 接 遭 到 拒绝 ) ) ， 从 而 
了 解 故障 背后 的 原因 ， 也 有 可 能 会 在 日 志 中 上 友 现 某 份 数据 ， 从 而 找到 软件 或 配置 中 的 错误 。 因 此 ， 当 我 们 着 手 调查 软件 故障 时 ， 
总 是 应 该 先 从 日 志文 件 入 手 ， 这 是 个 展 好 的 习惯 。 


不 同 的 操作 系统 和 软件 平台 ， 会 采用 各 种 存储 方式 来 把 日 志文 件 保 存 到 不 同 地方 。Unix 系 统 的 日 志文 件 ， 通 常 以 文本 形式 
保存 到 /var/log 目 录 中 。 应 用 程序 可 以 在 该 目录 创建 它们 上 自己 的 日 志文 件 ， 也 可 以 把 事件 记录 到 与 该 事件 类 型 相符 的 现 有 文件 
中 。 下 面 举 一 些 例子 : 


` 身份 认证 : auth.log 
后 台 进 程 : daemon.log 


内核: ketn.log 


` 调试 信息 : debug 

. 其 他 信息 : messages 

在 不 太 繁忙 的 系统 中 ， 我 们 或 许可 以 通过 下 列 命令 来 寻找 与 正在 调试 的 这 款 应 有 程序 相对 应 的 那 份 日 志文 件 : 
Is -tl /var/log | head 


上 面 那 条 命令 ， 可 以 列 出 最 近 有 所 改动 的 文件 ， 如 果 应 用 程序 刚刚 在 某 份 日 志文 件 里 面 写 入 了 一 条 记录 ， 那 么 那 份 文件 的 名 
称 ， 融 会 出 现在 文件 清单 的 开头 。 此 外 ， 如 果 要 找 的 文件 位 于 /varvlog 的 子 目 录 中 ， 那 么 可 以 通过 下 列 命令 来 查找: 


# List all files under /var/log 

find /var/log -type f | 

# List each file's last modification time and name 
xargs stat -c ‘%y %n | 

# Order by time 

sort -r | 

# List by the ten most recently modified files 
head 


如 果 这 些 办 法 都 不 行 ， 那 么 你 可 以 试 着 在 应 用 程序 的 文档 中 查询 日 志文 件 的 名 称 ， 也 可 以 试 着 在 其 执行 记录 (参见 第 58 
或 源 代码 中 寻找 该 文件 的 名 字 。 


m 


Windows 系 统 的 应 用 程序 日 志 ， 是 以 一 种 不 透明 的 格式 来 存储 的 。 可 以 运行 Eventvwr.msc 命 令 ， 以 启动 名 为 Event Viewer 
的 GUI 应 用 程序 ， 并 在 其 中 浏览 及 过 滤 日 志文 件 ， 也 可 以 使 用 Windows PowerShell 的 GetEventLog 命 令 ， 或 是 对 应 的 .NET API 
来 查看 。 日 志 分 成 很 多 个 种 类 ， 你 可 以 在 Event Viewer 左 侧 的 树 状 列 表 里 面 ， 按 照 类 别 来 进行 浏览 。 在 OS X 系 统 上 面 ， 带 有 图 
形 界面 的 日 志 查 看 程序 叫做 Console。Windows 与 OS X 的 日 志 查 看 程序 ， 都 可 以 过 滤 日 志 的 内 容 、 创 建 自 定义 的 视图 ， 或 搜寻 
特定 的 条 目 。 在 Unix 系 统 上 面 ， 你 可 以 通过 命令 行 工 具 (参见 第 22 条 ) 来 进行 类 似 的 处 理 。 


很 多 应 用 程序 都 可 以 对 其 所 记录 的 信息 量 (也 丈 是 日 志 的 详细 程度 ，log verbosity) 进行 调整 ， 我 们 可 以 通过 命令 行 选项 
或 配置 选项 来 调整 ， 有 了 时 甚至 还 可 以 给 正在 运行 的 程序 友 送 适当 的 信号 ， 以 调整 其 log 数 量 。 此 外 ， 日 志 框 染 可 能 还 会 提供 其 他 
一 些 对 日 志 信 息 进 行 扩充 或 调 书 的 机 制 。 把 问题 调试 好 之 后 ， 别 志 了 将 日 志 的 详细 程度 恢复 到 原来 的 级 别 。 如 果 详 细 程 序 调 得 过 
高 ， 那 么 程序 的 性 能 束 有 可 能 下 降 ， 而 且 其 占用 的 磁盘 空间 或 网 络 市 完 也 有 可 能 变 得 过 多 ，。 


在 Unix 系 统 中 ， 应 用 程序 会 在 每 条 日 志 消息 上 面 ， 标 出 该 消息 所 涉及 的 方面 (如 authorization (身份 验证 ) 、kernel (内 
核 ) 、mail (邮件 ) 、user (BP) 等 ) 以 及 消息 的 级 别 (如 emergency (Aim) 、alert (警告 ) informational (信息 ) 、 
debug (调试 ) ) 。 有 一 个 运行 在 后 人 台 的 程序 叫做 syslogd (或 rsyslogd) ， 它 负责 监听 系统 中 的 日 志 消 息 ， 并 将 其 记 入 文件 ， 
我 们 可 以 对 该 程序 进行 配置 ， 告 诉 它 应 该 怎样 处 理 特定 的 消息 。 与 此 相关 的 配置 文件 叫做 /etc/syslog.conf (或 者 叫 
做 /etc/rsyslog.conf， 此 外 ，/etc/rsyslog.d 目 录 里 面 可 能 还 有 一 些 配 置 文 件 ) 。 我 们 可 以 命令 syslogd 程 序 只 将 那些 达到 一 定 级 
AY (例如 ， 只 针对 informational 及 以 上 级 别 的 消息 ， 而 不 针对 debug 级 别 的 消息 ) ， 并 且 与 特定 方面 有 关 的 消息 记录 到 文件 、 
发 送 到 控制 台 或 将 其 忽略 。 比 如 ， 下 面 这 几 行 配置 ， 可 以 令 syslogd 程 序 把 security 方 面 的 全 部 消息 、 达 到 informational 级 别 的 
authorization 消 息 ， 与 级 别 恰好 为 debug 的 所 有 消息 ， 分 别 记录 到 对 应 的 日 志文 件 中 。 此 外 ， 它 还 命令 syslogd 程 序 把 级 别 为 
emergency 的 消息 ， 发 送 给 所 有 已 经 登录 的 用 户 。 


security.* /var/log/security 
auth.info /var/log/auth. log 
* =debug /var/log/debug. log 
* Emerg i 


对 于 JVM 代 码 来 说 ， 我 们 可 以 采用 流行 的 Apache log4j A FIERREN RC RAAR S RARE. AER 
的 结构 ， 是 基于 logger、appender 及 layout 而 搭建 起 来 的 ， 其 中 ，logger 是 输出 日 志 消 息 时 所 经 过 的 渠道 ，appender 是 一 种 
上 友 大 日 志 消 息 的 机 制 ， 可 以 把 消息 友和 送 给 文件 或 网 络 套 接 字 这 样 的 接收 方 (sink) ， 而 layout 则 用 来 指定 每 条 日 志 消 息 的 格式 。 
Log4j 是 通过 文件 来 配置 的 ， 该 文件 可 以 按照 XML、JSON、YAMIL 或 Java 属 性 文件 的 格式 来 书写 。 下 面 是 一 份 log4j 配 置 文件 中 
的 一 小 段 内 容 ， 这 份 文件 是 提供 给 Rundeck 这 个 工作 流 与 配置 管理 系统 所 使 用 的 。 


# This logger covers all of Grails' internals 

# Enable to see whats going on underneath. 

log4j. logger.org.codehaus.groovy.grai |s=warn, \ 
stdout, server- logger 

log4j.additivity.org.codehaus.groovy.grails=false 


# server-logger - DailyRollingFileAppender 

# Captures all output from the rundeckd server. 

log4j.appender.server-logger=org.apache. 1og4j.\ 
DailyRollingFi leAppender 

log4).appender.server- logger. fi le=/var/log/rundeck/rundeck. log 

log4j.appender.server-logger.datePattern='. 'yyyy-MM-dd 

log4j.appender.server-logger.append=true 

log4j].appender.server- logger. layout=org.apache. 1og4j.\ 
PatternLayout 

log4j).appender.server-logger. layout. \ 
ConversionPattern=%d{ISO8601} [%t] %-5p %c - %m%n 


ESA SWART Ralls, FRIRE SERASA AKE. NASbIR VEEN ae 
消息 的 级 别 来 探查 ssh 连 接 失败 的 原因 。sshd 程 序 所 用 的 配置 文件 ， 叫 做 /etc/ssh/sshd_config， 该 文件 里 面 有 一 个 已 经 注释 挥 
了 的 文本 行 ， 这 行文 字 用 来 指定 sshd 程 序 所 用 的 日 志 级 别 (其 默认 值 是 INFO) 。 


#LogLevel INFO 
当日 志 级 别 设 为 INFO 时 ， 如 果 连 接 失 败 ， 那 么 我 们 只 会 看 到 下 面 这 样 的 消息 。 


Jul 30 12:49:49 prod sshd[5369]: Connection closed by 
10.212.204.48 [preauth] 


现在 我 们 把 日 志 消 息 的 级 别 调整 为 DEBUG。 


LogLevel DEBUG 


这 样 束 可 以 看 到 很 多 条 谷 有 一 定 信息 量 的 消息 了 ， 人 在 这 些 消息 中 ， 下 面 这 条 消息 ， 清 楚 地 指出 了 问题 的 原因 : 


Jul 30 12:57:07 prod sshd[5713]: debugl: Could not open 
authorized keys '/home/jhd/.ssh/authori1zed_keys': No such 
file or directory 


有 很 多 种 方式 可 以 用 来 分 析 日 志 记 录 ， 并 从 中 寻找 程序 出 错 的 原因 。 

“ 可 以 使 用 系统 自 带 的 GUI 事件 查看 器 ， 并 运用 其 搜索 与 过 滤 功 能 。 

可 以 用 编辑 器 打开 并 处 理 日 志文 件 (参见 第 24 条 ) 。 

: 可 以 用 Unix 工 具 来 过 滤 、 汇 总 并 筛选 相关 的 字段 (参见 第 22 条 ) 。 

. 可 以 对 日 志 进 行 交互 式 的 监控 (参见 第 23 条 ) 。 

- 可 以 使 用 EILK、Logstash、loggly 或 Splunk 这 样 的 日 志 管 理应 用 程序 或 服务 。 

` 在 Windows 系 统 下 ， 可 以 使 用 Windows Events Command Line Utility (wevtutil) 来 执行 查询 并 导出 日 志 。 


一 般 来 说 ， 我 们 总 是 先 从 与 程序 的 出 氏 时 间 较 为 接近 的 那些 条 目 入 手 。 此 外 ， 也 可 以 在 事件 日 志 里 面 搜寻 与 错误 有 关 的 字符 
串 ， 比 如 ， 如 果 某 个 命令 执行 失败 了 ， 那 你 束 在 日 志 里 面 搜 这 个 命令 的 名 字 。 无 论 及 用 哪 种 方法 ， 等 你 找到 了 相关 的 条 目 之 后 ， 
就 应 该 继续 检查 该 条 目 之 前 的 那些 内 容 ， 看 看 里 面 有 没有 错误 信息 、 和 警告 信 息 ， 或 是 不 应 该 出 现 的 条 目 。 


对 于 表现 不 太 明 显 的 错误 来 说 ， 通 常 应 该 把 日 志文 件 里 面 那 些 无 关 紧 要 的 条 目 删 掉 ， 从 而 使 包含 重要 信息 的 条 目 得 以 凸现 。 
我 们 可 以 采用 编辑 器 来 删除 日 志 的 内 容 : Emacs 用 户 使 用 delete-matching-lines regular-expression 形 式 的 命令 来 删除 ，vim 
用 户 使 用 : g/regular-expression/d 形 式 的 命令 来 删除 ， 而 Eclipse 及 Visual studio 的 用 户 ， 则 可 以 通过 得 找 / 茶 换 功能 来 把 那些 
整 行文 字 都 符合 某 个 正则 表达 式 并 以 \n 结 尾 的 内 容 删 除 。 如 果 你 使 用 的 是 Unix 命 令 行 ， 那 么 可 以 用 管道 来 拼接 grep-v 命 令 ， 以 
便 对 日 志文 件 进行 过 滤 。 


Br 


过 查看 日 志文 件 米 寻 找 应 用 程序 出 错 的 原因 。 


i 


- 提升 应 用 程序 在 记录 信息 时 所 用 的 详细 程度 ， 以 便 把 程序 失败 的 原因 记录 下 来 。 


` 对 日 志文 件 进行 配置 及 过 滤 ， 以 缩减 问题 的 排查 范围 。 


第 27 条 : 对 系统 和 进程 所 执行 的 操作 进行 性 能 评测 


在 调试 与 性 能 有 天 的 问题 时 ， 我 们 首先 应 该 做 的 ， 就 是 了 解 该 系统 的 操作 概况 (而且 通常 也 只 能 通过 这 种 手段 来 调试 此 类 问 
题 ) 。 通 过 系统 的 操作 概况 (profile) ， 我 们 可 以 看 出 它 对 资源 的 利用 情况 ， 进 而 找到 其 中 不 太 正 常 或 是 有 待 优 化 的 那 一 部 
分 。 要 进行 性 能 概要 分 析 ， 第 一 步 是 从 宏观 层面 上 总 览 整个 系统 。 有 两 种 进程 查看 工具 ， 可 以 显示 出 系统 的 CPU 及 内 人 存 使 用 情 
况 ， 它 们 分 别 是 Unix 系 统 上 面 的 top 命 令 ， 以 及 Windows 系 统 上 面 的 Task Manager (任务 管理 器 ) 程序 ， 如 图 7.1 所 示 。 在 表 
现 不 正常 的 系统 上 面 ， 如 果 CPU 的 使 用 率 过 高 (例如 ， 对 于 单 核 的 CPU 来 说 ，90% 的 使 用 率 可 以 说 是 过 高 了 ) ， 那 就 意味 着 我 
们 必须 对 程序 的 处 理 逻 辑 进 行 分 析 ， 反 之 ， 若 是 CPU 的 使 用 率 过 低 〈 例 如， 对 于 单 核 的 CPU 来 说 ，109% 的 使 用 率 可 以 说 是 过 低 
J) ， 则 说 明 程 序 有 可 能 因为 某 些 输入 /输出 (1/0) 操作 ， 而 上 友 生 了 一 定 的 延迟 。 请 注意 ， 对 于 多 核 的 CPU 来 说 ， 系 统 所 显示 


的 使 用 率 ， 通 剃 是 所 所 有 CPU 内 核 的 平均 值 ， 因 此 ， 如 果 你 要 调试 的 是 一 个 单线 程 的 进程 ， 那 融 应 访 把 刚才 襄 的 那 两 个 限 什 ， 
与 CPU 的 内 核 数量 相 除 。 比 如 ， 图 7.1 所 展示 的 这 两 个 系统 ， 都 用 的 是 8 核 的 CPU， 因 此 ， 在 整个 系统 处 于 朵 置 的 状态 下 ， 如 果 
现在 有 某 个 进程 对 其 中 一 个 CPU 内 核 的 使 用 率 是 100%， 而 对 其 余 7 个 内 核 的 使 用 率 是 0%， 那 么 平均 下 来 ， 整 个 系统 的 CPU 使 用 
28 12% (也 束 是 100%/8) 。 


除了 要 关注 CPU 的 使 用 率 ， 还 应 该 天 注 系 统 物 理 内 存 的 使 用 情 况 。 如 果 使 用 率 过 高 (也 束 是 说 ,接近 于 100%) ， 那 么 可 能 
会 导致 系统 无 法 继续 分 配 内 存 ， 进 而 使 程序 出 现 错误 ,或 是 导致 系统 必须 去 执行 虚拟 内 存 分 页 操作 ， 进 而 使 系统 的 性 能 下 降 。 在 
计算 剩余 内 存 的 数量 时 ， 要 注意 : Linux 系 统 几乎 尽 是 会 把 可 以 使 用 的 内 存 ， 全 都 用 作 绥 ;站 区 缓存 ， 因 此 ， 对 于 Linux 系 统 来 说 ， 
我 们 在 计算 其 剩余 内 存 时 ， 还 应 该 把 top 程 序 在 buffers 字 段 中 所 给 出 的 值 也 一 起 考虑 。 


有 些 系统 在 设计 的 时 候 ， 本 身 丈 是 打算 以 使 用 率 接近 100% 的 方式 来 运作 的 ， 对 于 这 种 系统 来 咬 ， 我 们 不 应 该 忌 是 盯 着 使 用 
率 不 放 ， 而 是 还 要 考虑 饱和 度 (saturation) 的 问题 。 也 残 是 襄 ， 要 看 某 项 资源 所 处 理 的 请 求 ， 是 不 是 超过 了 它 的 服务 能 力 。 为 
此 ， 我 们 还 是 可 以 使 用 相同 的 工具 来 监测 ， 只 不 过 这 一 次 ， 要 关注 的 是 那些 与 具体 资源 有 关 的 饱和 度 指标 。 


对 于 CPU 来 说 ， 要 看 其 负载 是 不 是 高 于 内 核 数 量 (适用 于 Unix 系 统 ) 或 Perfor-mance Monitor-System-Processor Queue Length 


中 所 显示 的 数值 (适用 于 Windows 系 统 ) o 
` 对 于 内 存 来 说 ， 要 观察 系统 把 虚拟 内 存 页 面 写 入 磁盘 的 频率 。 
: 对 于 网 络 LI/O 来 说 ， 要 观察 丢 包 与 重 传 的 情况 。 


- 对 于 存储 设备 的 I/O 来 说 ， 要 观察 请 求 队 列 的 长 度 及 操作 延迟 。 


top - 21:38:21 up 51 days, 


Tasks: 288 total, 
12.6 us, 
12283536 ronal: 


*CpuCs): 
KiB Mem: 


0.1 s 


KiB Swap: 25071612 total, 


5:29, 
0.0 ni, 


1 user, 
2 pride 286 sleeping, 

87.3 1d 
"10967036 ‘used, 


load average: 
0 stopped, 

|, 0.0 wa, 

1316500 free, 


1468356 used, 23603256 free. 


1/45 ads | 2( 0 £40 DU4 
1623 rabbitmq 20 0 2225948 14584 
1665 postgres 20 0 110924 24 
31557 root 20 0 0 
31630 dds 20 0 114316 4052 
31746 dds 20 O 25740 2888 
1 root 20 0 31160 3928 

2 root 20 0 0 0 

3 root 20 0 0 0 

5 root 0 -20 0 0 

7 root 20 0 0 0 

8 root 20 0 0 0 

9 root rt 0 0 0 

10 root rt 0 0 0 
11 root rt 0 0 0 

12 root rt O 0 0 

13 root 20 0 0 0 


I] Windows Task Manager 
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File Options 


View Help 


Applications Processes | Services | Performance | Networking | Users | 


A a A ARIA 


cpu- cal exe *32 


AcroRd32.exe *52 
qvim.exe *32 
AcroRd32.exe *32 
AdobeCollabSync.exe *32 
bash.exe *32 
taskmgr.exe 

rundll32.exe 
script-fu.exe 


conhost.exe 


gimp-2.8.exe 
thunderbird,exe *32 


PUTTY.EXE 


*32 


bash ,exe *32 
bash.exe “32 
mintty ,exe *32 
ssh-agent.exe *32 
GWX.exe 
4 


By Show processes from all users 


dds 
dds 
dds 
dds 
dds 
dds 
dds 
dds 
dds 
dds 
dds 
dds 
dds 
dds 
dds 
dds 
dds 
dds 


8356 
9080 
8832 
8532 
8468 


7316 
7224 
6852 
6708 
6568 
6336 
5940 
5920 


o 
00 
00 
00 


00: oF 
00:01:36 
00:00:26 
00:00:02 
00:00:00 
00:00:00 
00:01:05 
00:00:00 
00:00:01 
00:00:00 
00:00:59 
00:08:24 
00:00:00 
00:00;00 
00:00:00 
00:00:04 
00:00:00 
00:00:01 


H 
© 
© 


0.0 


TIME+ 


2 672 K 


274,728 K 


20,936 K 
20,256 K 
10,448 K 
5,308 K 
14,692 K 
5,252 K 
13,120 K 
3,964 K 
91,756 K 


374,880 K 


12,936 K 
9,332 K 
5,128 K 
8,332 K 
5,924 K 

10,216 K 


1.09, 1.00, 0.68 
0 zombie 

0.0 hi, 

2328888 buffers 

6450376 cached Mem 


si, 0.0 st 


COMMAND 
cpu-hog 
beam. smp 
I0stgres 
sale er/6:1 


oii 

systemd 
kthreadd 
ksoftirqd/0 
kworker/0O:+ 
rcu_sched 
rcu_bh 
migration/0 
watchdog/0 
watchdog/1 
migration/1 
ksoftirqd/1 


-Dlx 


af 


End Process | 


图 7.1 


束 上 述 这 些 方面 而 言 ， 


用 top 命 令 


如 果 饱 和 度 看 起 来 


对 常会 超过 100% (无 论 是 一 直 大 于 100%， 


(顶部 ) 及 Window 的 Task Manageft 程 序 (底部 ) 来 查看 当前 正在 运行 


还 是 瞬间 冲 上 10096) 


的 进程 


, ABA 


味 着 系统 出 问题 了 。 


对 影响 系统 性 能 的 各 种 因素 有 了 宏观 的 了 解 之 后 ， 接 下 来 ， 我 们 应 该 深入 探查 那些 CPU 周 期 占用 数量 过 多 、1/0O 次 数 过 多 、 
|/O 延 迟 过 大 或 内 存 用 量 过 多 的 进程 。 


如果 问 题 是 CPU 负载 过 高 而 引起 的 ， 那 么 就 应 该 检查 正在 运行 的 这 些 进程 ， 并 按照 它们 对 CPU 的 使 用 率 进 行 排序 ， 从 而 找 


出 占用 CPU 时 间 最 多 的 那个 进程 。 在 图 7.1 中 ， 这 个 进程 的 名 字 叫 做 cpu-hog。 


+ 如 果 问 题 是 内 存 使 用 率 过 高 而 引起 的 ， 那 就 按照 其 工作 集 的 内 存 大 小 《或 第 驻 内 存 的 大 小 ) 来 对 进程 排序 。 排 序 时 所 依据 
的 是 其 对 物理 内 存 的 占用 量 ， 而 不 是 对 虚拟 内 存 的 占用 量 。 


:如果 你 怀疑 问题 是 由 于 LI/O 负载 过 多 或 IJ/O 延 迟 过 大 所 引发 的 ， 那 么 可 以 使 用 Unix 系 统 的 iostat、netstat、nfsstat 或 vmstat 等 
工具 ， 以 及 Windows 系 统 的 Performance Monitot 程 序 (在 系统 中 运行 petftmon 命 令 ， 就 可 以 打开 该 程序 ) 来 进行 监测 。 要 注意 观察 
与 磁盘 及 网 络 数据 相对 应 的 I/ 〇 操作 数量 ， 因 为 这 两 个 方面 都 有 可 能 成 为 系统 性 能 的 瓶颈 。 等 你 把 引发 性 能 问题 的 那 种 因素 确定 
下 来 之 后 ， 就 可 以 通过 Unix 系 统 的 pidstat 命 令 或 Windows 系 统 的 Task Manager 程 序 来 找到 与 之 对 应 的 进程 了 。 然 后 ， 查 看 该 进程 所 
执行 的 系统 调用 ， 以 便 深 入 地 了 解 其 行为 (参见 第 58 条 ) 。 


对 于 CPU 或 内 存 使 用 率 过 高 的 情况 来 沈 ， 我 们 还 应 该 对 有 问题 的 进程 做 性 能 概要 分 析 ， 以 探查 其 行为 。 有 很 多 技术 都 能 够 
监测 程序 的 行为 。 如 果 你 关注 的 是 CPU 使 用 率 ， 那 就 把 程序 放 在 statistical profiler (统计 式 性 能 分 析 器 ) 下 面 运行 ， 这 种 
profiler， 在 每 一 秒 的 时 间 内 ， 都 会 数 次 打 断 程序 的 操作 ， 并 且 会 把 其 中 耗 时 最 多 的 那些 操作 记录 下 来 。 此 外 ， 也 可 以 对 编译 器 
或 运行 时 系统 进行 设置 ， 令 其 在 每 个 ( 非 内 联 的 ) 函数 开头 及 结尾 处 放置 一 些 代 码 ， 并 据 此 创建 出 一 张 与 程序 的 执行 概况 有 天 的 
图 表 。 这 样 一 来 ， 我 们 惑 可 以 把 每 个 函数 所 做 的 事情 ， 都 计算 到 它 的 上 层 函 数 头 上 ， 从 而 厘清 那些 调用 路 径 较为 复杂 的 性 能 问 
题 。 如 果 采 用 GCC 进行 编译 ， 那 么 需要 开 司 -pg 选项 ， 并 使 用 gprof 工 具 来 查看 生成 的 数据 。 在 极 个 别 的 场合 ， 你 长 至 还 可 以 令 
编译 器 通过 计数 器 来 对 每 一 个 基本 的 代码 块 进 行 统计 ， 以 了 解 每 行 代码 分 别 执行 了 多 少 次 。 如 果 采 用 GCC 进行 编译 ， 那 么 需要 
开局 -fprofile-arcs 和 -ftest-coverage 选 项 ， 并 使 用 gcov 工 具 来 给 代码 添加 相 天 的 注解 。 除 了 这 些 办 法 ， 还 可 以 考虑 通过 Eclipse 
及 NetBeans 的 profiler 插 件 来 执行 性 能 概要 分 析 ， 或 是 采用 针对 Java 程 序 的 VisualVM、JProfiler 和 Java Mission Control 系 统 

(参见 图 7.2) ， 以 及 针对 .NET 代 码 的 CLR profiler 来 进行 分 析 。 如 果 你 关注 的 是 内 存 使 用 率 ， 那 么 通常 可 以 用 监控 器 来 对 运行 
时 系统 的 内 存 分 配 操作 进行 修改 ， 以 便 追 踪 内 存 的 分 配 情况 。Unix 系 统 下 的 Valgrind 是 个 很 有 用 的 工具 ， 刚 才 提 到 的 VisualVM 
及 Java Mission Control， 也 属于 此 类 工具 。 我 们 可 以 通过 Aspect 和 Spring AOP 等 面向 方面 的 编程 (Aspect Oriented 
Programming) 工具 及 框架 来 自行 安排 并 配置 所 要 执行 的 监控 。 在 更 靠近 硬件 的 层面 上 ， 我 们 还 可 以 用 perf、oprofile 或 
perfmon2 等 工具 来 监测 CPU 的 性 能 计数 器 ， 以 了 解 缓存 未 命中 、 分 广 预 测 未 命中， 以 及 指令 获取 述 沸 等 情况 (详情 参见 第 65 


条 ) 。 
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图 7.2 ”由 Java Mission Conttol 所 提供 的 性 能 概况 图 ， 其 中 列 出 了 耗 时 较 多 的 包 和 类 


TE 
` 检查 CPU、I/O 及 内 存 的 使 用 率 及 饱和 度 ， 以 便 分 析 性 能 问题 。 


给 有 问题 的 进程 做 性 能 分 析 ， 以 了 解 其 对 CPU 及 内 存 的 使 用 情况 ， 进 而 缩小 需要 排查 的 代码 范围 。 


。、\ 白 nc 4 二 三 
第 58 条 : 人 姐 味 程序 的 执行 情 ) 

有 一 些 可 以 对 程序 进行 监测 及 退路 的 工具 和 设施 ， 能 够 根据 任何 一 个 程序 的 执行 情况 来 生成 类 似 于 日 志 的 数据 。 
层面 的 日 志 记 录 相 比 ， 这 种 办 法 有 下 面 几 个 好 处 : 

- 即便 正在 调试 的 这 款 应 用 程序 不 提供 日 志 机 制 ， 也 依然 能 够 获取 到 一 些 数据 。 

“ 无 需 专门 去 准备 debug 版 本 的 软件 (参见 第 40 条 ) ， 况 且 debug 版 本 的 软件 有 可 能 会 掩盖 最 初 的 问题 。 


与 带 有 图 形 界 面 的 调试 器 相 比 ， 这 种 办 法 更 加 轻便 ， 从 而 可 以 在 没有 安装 相关 工具 的 生产 环境 中 使 用 。 


与 应 用 程序 


我 们 通常 是 及 用 这 样 的 办 法 来 查找 bug 的 : 要 么 在 程序 的 关键 地 点 放置 log 语 句 (参见 第 56 条 和 第 41 条 ) ， 要 么 焉 把 代码 放 


在 调试 器 里 面 运行 ， 以 便 向 其 中 动态 地 插入 断 上 各 (参见 第 30 条 ) 。 


然而 当今 有 很 多 性 能 问题 与 程序 bug， 都 要 涉及 第 三 方 的 程序 库 ， 或 是 要 涉及 本 程序 与 操作 系统 之 间 的 交互 。 对 于 这 些 问 题 
来 说， 有 一 种 办 法 ， 是 去 查看 本 程序 的 代码 究竟 是 如 何 调 用 另外 一 个 组 件 的 。 我 们 可 以 检查 每 次 调用 的 时 间 礁 ， 或 是 看 看 有 没有 
数量 过 多 的 调用 行为 ， 并 以 此 来 找寻 性 能 问题 。 此 外 ， 消 数 的 参数 通常 也 可 以 揭示 出 某 些 bug。 适 用 于 Unix 系 统 的 调用 姐 味 工具 
包括 ltrace (用 来 但 路 对 程序 库 的 调用 ) 、strace、ktrace 以 及 truss (这 三 个 工具 用 来 追踪 对 操作 系统 的 调用 ) ; 适用 于 Java 程 
序 的 工具 是 JProfile; 适用 于 Windows 系 统 的 工具 是 Process Monitor (用 来 追踪 对 DLL 的 调用 ， 这 些 调用 既 包括 对 操作 系统 接 
口 的 调用 ， 也 包括 对 第 三 方 库 接口 的 调用 ) 。 这 些 工具 通常 会 使 用 特殊 的 API 或 通过 代码 补丁 (code-patching) 技术 来 把 自己 
挂 在 待 调试 的 程序 与 其 外 部 接口 之 间 。 


现在 举 一 个 例子 。 假 设 现在 有 一 个 程序 ， 在 处 理 其 输入 数据 的 时 候 ， 执 行 得 特别 缓慢 (参见 第 10 条 ) ， 而 对 该 程序 运行 
strace 命 令 之 后 ， 得 到 了 下 面 这 样 的 输出 ， 那 么 ,我们 束 可 以 看 出 :I/O 程序 库 的 缓冲 区 并 没有 得 到 利用 ， 而 且 程 序 在 处 理 每 一 
个 字符 的 时 候 ， 都 会 发 出 两 次 系统 调用 ， 一 次 是 读 取 8191 字 节 ， 另 一 次 是 把 文件 的 搜寻 指针 后 退 8190 字 节 。 


read(6, "ng or publicity pertaining\nto di"..., 8191) = 8191 
_liseek(6, -8190, [536], SEEK_CUR) = 0 
read(6, gd or publicity pertaining\nto dis”..., 8191) = 8191 
_Illseek(6, -8190, [537], SEEK_CUR) = 0 
read(6, or publicity pertaining\nto dist"..., 8191) = 8191 
_Illseek(6, -8190, [538], SEEK_CUR) = 0 
read(6, “or publicity pertaining\nto distr”..., 8191) = 8191 
_Illseek(6, -8190, [539], SEEK_CUR) = 0 
read(6, "r publicity pertaining\nto distri”..., 8191) = 8191 


_llseek(6, -8190, [540], SEEK_CUR) = 0 


得 其 这 一 情况 之 后 ， 我 们 可 以 去 查看 程序 用 来 处 理 输 入 数据 的 那 部 分 代码 ， 而 且 还 可 以 推 根 : 这 可 能 是 由 于 程序 调用 了 
tellg 万 法 。 下 面 这 个 短小 的 测试 程序 (参见 第 11 条 ) ， 也 能 够 表现 出 同样 的 问题 : 


ifstream in(fname.c_str(), ios::binary); 


do { 
(void)in.tellgQ; 
} while ((val = in.getQ)) != EOF); 


如 果 我 们 能 够 通过 上 面 这 种 方式 来 简单 而 可 靠 地 重 现 问题 ， 那 么 很 容易 残 可 以 写 出 一 个 shim 类 ， 用 来 独立 地 计算 当前 位 置 
距离 文件 开头 的 偏 移 量 ， 并 对 该 量 进行 缓存 ， 从 而 无 需 骨 去 调用 tellg 消 数 。 


用 Unix 工 具 对 strace 所 输出 的 内 容 进行 处 理 ， 可 以 给 调试 工作 市 来 很 大 的 帮助 。 比 如 ， 如 果 有 一 个 程序 因为 某 个 配置 条 目 出 
音 而 无 法 运作 ， 但 我 们 又 不 方便 在 几 十 个 配置 文件 里 面 手工 寻找 这 个 条 目 ， 那 么 残 可 以 用 下 面 这 条 Bash 命 令 来 把 那些 由 prog 程 
序 所 开局 ， 且 含有 不 当 字 符 串 (如 xyzzy) 的 文件 列 出 来 。 


# Send the output of strace to a command 

strace -fo >( 
# Isolate and output the path of each opened file 
sed -n ‘s/.*open( NGC LA Ne LA ep | 
# Remove special device files 
egrep -v ‘A/(proc|dev|tmp)/' | 
# Output each file path only once 
sort -u | 
# Search for occurrences of xyzzy within each file 
xargs fgrep xyzzy) prog 


上 面 这 条 命令 把 strace 程 序 所 输出 的 内 容 友 送 给 一 条 管道 ， 这 条 管道 首先 用 sed 命 令 把 一 些 文件 名 提取 出 来 ， 这 些 文件 名 曾 
经 传 给 了 名 为 open 的 系统 调用 ， 然 后 ， 它 用 egrep-v 命 令 把 与 设备 有 天 的 文件 名 删 挥 ， 接 下 来 ， 用 sort-u 命 令 对 这 些 文件 名 进行 
排序 ， 并 去 除 重复 的 文件 名 ， 最 后 ， 用 fgrep 命 令 在 剩 下 的 文件 里 面 寻 找 字符 串 xyzzy。 


如 果 要 调试 的 是 Java 程 序 ， 或 是 使 用 了 X Window 系 统 的 程序 ， 那 么 在 用 strace 查 看 其 系统 调用 情况 时 ， 残 会 看 到 很 多 与 运 
行 时 框架 有 关 的 信息 ， 这 些 信 息 颇 为 杂乱 ， 使 人 无 法 看 清 程序 的 真实 行为 。 所 笠 我 们 可 以 用 strace 的 -e 选 项 来 把 这 些 系统 调用 过 
滤 掉 。 下 面 这 两 条 命令 ， 分 别 适 用 于 Java 程 序 以 及 使 用 了 X Window 系 统 的 程序 : 


# Trace a Java program 
strace -e 'trace=!clock_gettime,gettimeofday, futex, \ 
timerfd_settime,epol|l_wait,epol|l_ctl' 


# Trace a Unix X Window System program 
strace -e 'trace=!poll,recvfrom,writev,read,write' 


请 注意 ， 妃 蹊 工具 也 可 以 连接 到 正在 运行 的 程序 上 面 。 命 令 行 形式 的 退 踩 工具 ， 提 供 了 -p 选 项 ， 而 市 有 图 形 界 面 的 妃 蹊 工 
具 ， 则 会 提示 你 去 单 击 想 要 追踪 的 进程 。 


我 们 并 不 是 只 能 对 与 系统 及 程序 库 有 关 的 调用 进行 追踪 。 绝 大 多 数 的 解释 型 语言 ， 也 都 提供 了 相应 的 选项 ， 用 来 在 程序 执行 
期 间 追 味 其 行为 。 下 面 列 出 几 种 常见 的 脚本 语言 所 提供 的 追 路 选项 : 


- Perl: perl-d: Trace 
- Python: python-m trace--trace 
* Ruby: ruby-r tracer 


- Unix shell: sh-x. bash-x. csh-x 等 


除 此 之 外 ， 还 有 其 他 一 些 方 式 ， 也 可 以 对 程序 所 执行 的 操作 进行 监测 ， 例 如 ， 可 以 使 用 针对 JavaScript 程 序 的 后 端 监测 工具 
spy-js、 使 用 与 网 络 包 有 关 的 监测 工具 (参见 第 16 条 ) ， 或 是 通过 数据 库 服 务 器 来 记录 应 用 程序 所 执行 的 SQL 语句 等 。 比 如 ， 下 
面 这 几 行 SQL 语句 ， 融 可 以 用 来 开局 MySQL 的 日 志 记 录 功 能 : 


set global log_output = 'FILE'; 
set global general_log_file='/tmp/mysql.log'; 
set global general_log = 1; 


上 面 提 到 的 那 学 工具 ， 都 是 一 些 老牌 的 监测 工具 ， 只 要 你 能 够 大 致 确定 问题 的 原因 ， 那 么 这 毕 工 具 融 可 以 在 解决 问题 的 过 程 


中 ， 给 你 提供 很 多 的 帮助 。 然 而 ， 它 们 同时 也 有 着 一 些 缺 后 ， 比 如 ， 它 们 忌 是 要 求 开 友 者 必须 先 对 代码 采取 一 些 特别 的 措施 ， 然 
后 才能 对 其 进行 监控 ; 它们 会 使 系统 的 性 能 降低 ; 它们 的 界面 很 古怪 ， 而 且 互 不 兼容 ;它们 只 能 展示 出 整个 情境 中 的 一 小 部 分 ， 
而 且 有 时 会 忽略 重要 的 细节 。 


有 一 种 工具 能 够 避 开 这 些 缺 陷 ， 它 的 名 字 叫 做 DTrace， 这 是 个 原本 由 Sun 公 司 所 开 友 的 动态 但 路 框架 ， 能 够 以 一 套 统合 的 
机 制 来 全 面 而 自然 地 监控 操作 系统 、 应 用 程序 服务 器 、 运 行 时 环境 、 程 序 库 ， 以 及 一 般 的 应 用 程序 。 它 目前 可 以 运行 在 
Solaris, OS X、FreeBSD 及 NetBSD 系 统 上 面 。 对 于 Linux 系 统 来 说 ，SystemTap 及 LTTng 也 提供 了 类 似 的 功能 。 


DTrace 徊 获得 《华尔街 日 报 》 的 技术 创新 奖 ， 呈 无 疑问 ， 这 不 是 那 种 只 用 几 天 工夫 束 拼 凑 出 来 的 产品 。SUunN 公 司 的 三 位 工 
程 师 伦 了 好 几 年 的 时 间 来 开 友 这 套 机 制 ， 使 其 能 够 安全 地 运用 到 所 有 的 操作 系统 内 核 立 数 、 动 态 链接 库 、 应 用 程序 的 立 数 、 特 定 
的 CPU 指 令 以 及 Java 虚 拟 机 上 面 。 他 们 还 研 友 了 一 球 安 全 的 解释 型 语言 ， 令 开 友 者 能 够 以 此 来 编写 复杂 的 追踪 脚本 ， 这 种 脚本 
不 会 损害 操作 系统 的 功能 ， 而 且 能 够 在 不 耗费 大 量 内 存 的 前 担 下 ， 灵 活 地 将 多 个 阔 数 统合 起 来 ， 以 便 对 奶 跃 到 的 数据 进行 汇总 。 
DTrace 整 合 了 现 有 的 大 多 数 奶 踩 工具 及 某 举 知名 的 解释 型 语言 ， 并 具备 了 那些 工具 和 语言 所 拥有 的 一 毕 技术 与 奇妙 的 功能 ， 进 
而 成 为 了 一 套 包 罗 万 象 的 程序 奶 足 平台 . 


我 们 通常 是 通过 dtrace 命 令 行 工 具 来 使 用 DTrace 框 架 的 。 我 们 用 一 种 叫做 D 语 言 的 领域 特定 语言 ( 它 与 同名 的 通用 编程 语 
言 不 是 一 回 事 ) 来 撰写 脚本 ， 并 将 其 传 给 dtrace 工 具 ， 该 工具 会 安装 脚本 中 的 追踪 指令 ， 然 后 执行 程序 ， 并 打印 出 追踪 的 结果 。 
D 语 言 是 一 种 很 简单 的 语言 ， 它 和 awk 及 sed 等 工具 ， 以 及 其 他 很 多 声明 式 的 语言 (declarative language) 类 似 ， 也 是 由 成 对 
的 模式 与 动作 所 构成 的 。 模 式 (在 DTrace 的 术语 里 面 ， 叫 做 谓词 ) 用 来 指定 探测 器 ， 也 就 是 用 来 指定 你 想 要 监测 的 事件 。 
DTrace 预 先 定 义 了 上 干 种 探测 器 (早期 的 Solaris 版 本 有 49979 种 ， 在 笔者 所 用 的 OS X El Capitan 版 本 上 面 ， 有 177398 种 ) , Ut 
外 ， 像 是 应 用 程序 服务 器 与 运行 时 环境 等 系统 程序 ， 也 可 以 定义 它们 各 自 的 探测 器 ， 而 且 你 还 可 以 在 程序 或 动态 链接 库 中 的 任意 
位 置 上 安插 探测 器 。 比 如 ， 下 面 这 条 命令 : 


dtrace -n ‘syscall:::entry' 


会 在 每 一 个 系统 调用 的 入 口 点 放置 探测 器 ， 并 执行 (默认 的 ) 动作 ， 也 融 是 况 ， 只 要 有 进程 去 执行 系统 调用 ， 它 融会 把 这 次 
调用 的 名 称 及 进程 的 process-id 打 印 出 来 。 我 们 可 以 用 Boolean 操 作答 ， 把 谓词 与 其 他 变量 结合 起 来 ， 以 指定 更 为 复杂 的 追踪 条 
件 。 


在 刚才 那 条 命令 中 ，syscall 这 个 名 字 所 指定 的 是 一 种 提供 器 ， 也 束 是 一 种 能 够 提供 探测 器 的 模块 。 可 以 想见 ， 这 个 名 叫 
syscall 的 提供 器 ， 所 提供 的 应 该 是 一 些 能 够 奶 路 系统 调用 的 探测 器 ， 在 笔者 的 操作 系统 上 面 ， 它 能 够 对 500 种 系统 调用 进行 追 
踩 。 我 们 也 可 以 用 syscall:open: entry 这 样 的 名 称 来 把 具体 的 探测 器 安装 在 系统 调用 的 入 口 处 ， 以 便 对 该 调用 进行 追 路 (在 本 
例 中 ， 这 个 调用 指 的 是 open) 。DTrace 有 数 十 种 提供 器 ， 可 以 对 性 能 统计 机 制 、 全 部 的 内 核 函 数 、 锁 、 系 统 调 用 、 设 备 驱 动 、 
输入 事件 与 输出 事件 、 进 程 的 创建 及 终止 、 网 络 栈 的 管理 信息 库 (management information base, MIB) 、 调 度 器 、 虚 拟 内 
存 操 作 、 用 户 程 序 中 的 消 数 与 任意 的 代码 位 置 、 同 步 原 语 、 内 核 的 统计 机 制 以 及 Java 虚 拟 机 的 操作 进行 退路 。 下 面 这 些 命令 能 够 
列 出 当前 可 以 使 用 的 提供 器 与 探测 器 。 


# List all available probes 

dtrace -| 

# List system call probes 

dtrace -1 -P syscall 

# List the arguments to the read system call probe 
dtrace -lv -f syscall::read 


我 们 可 以 在 使 用 每 个 谓词 的 时 候 ， 为 其 定义 一 项 动作 。 如 果 谓 词 的 条 件 得 以 满足 ， 那 么 DTrace 束 会 执行 这 项 动作 。 例 如 ， 


下 面 这 条 命令 : 


dtrace -n ‘syscall::open:entry {trace(copyinstr(arg0O));}' 


融会 列 出 每 一 个 已 经 打开 的 文件 所 具有 的 文件 名 。 


动作 也 可 以 定义 得 复杂 一 些 ， 比 如 ， 我 们 可 以 在 其 中 设置 全 局 变量 或 线程 的 局 部 变量 ， 可 以 把 数据 存放 在 关联 数组 中 ， 也 可 
以 用 计数 、 求 最 小 值 、 求 最 大 值 、 求 平均 值 以 及 量化 等 国 数 来 对 数据 进行 聚合 。 比 如 ， 下 面 这 个 程序 ， 会 把 每 条 线程 在 dtrace 执 
行 期 间 得 到 调用 的 次 数 统计 出 来 : 


proc:::exec-success { @proc[execname] = count()} 


AERA, BER Ra, RR EARE, AAA LMS iain itil ale. 
FS UADTraceIAV SA Ra SAY, AVM ARIZA ER, RAT, KAS, WARE, AeA aRS 
相互 配对 的 谓词 与 动作 。 


如 果 要 对 运行 在 JVM 上 面 的 代码 进行 调试 ， 那 么 还 有 另外 一 种 工具 也 能 够 很 好 地 追踪 其 行为 ， 这 惑 是 Byteman。 衣 工具 能 
够 在 无 需 重新 编译 代码 的 前 提 下 ， 向 应 用 程序 的 方法 或 Java 的 运行 时 系统 中 注入 java 代码 。 你 可 以 通过 清晰 而 简单 的 脚本 语言 来 
告诉 该 工具 何 时 应 该 对 原始 的 Java 代 码 进行 转换 ， 并 对 转换 的 方式 做 出 规定 。 与 在 代码 里 面 手工 添加 log 语 句 相 比 ， 使 用 
Byteman 有 三 个 好 处 。 首 先 ， 由 于 我 们 无 需 获 得 受 测 程序 的 源 代 码 ， 因 此 不 仅 可 以 用 它 来 调试 目 己 所 写 的 程序 ， 而 且 也 可 以 用 
写 来 调试 第 三 方 的 程序 。 其 次 ,我 们 可 以 故意 注入 一 些 错误 的 内 容 或 类 似 的 状况 ， 看 看 程序 会 做 何 反 应 。 最 后 ,我们 还 可 以 在 
Byteman 脚 本 中 ， 检 查 受 测 程序 当前 的 内 部 状态 与 它 本 来 应 该 处 在 的 状态 是 否 相 符 ， 并 且 在 二 者 不 相符 时 ， 令 该 测试 用 例 失 
败 。 


对 于 Windows 平 台 来 说 ，Windows Performance Toolkit 也 提供 了 类 似 的 功能 ， 它 是 Windows Assessment and 
Deployment Kit 的 一 部 分 。 这 个 Toolkit 中 有 一 个 名 为 Windows Performance Recorder 的 记录 组 件 ， 可 以 在 性 能 有 问题 的 系统 
上 面 ， 对 你 认为 重要 的 那些 事件 进行 追 路， 此 外 ， 还 有 一 个 名 为 Windows Performance Analyzer 的 组 件 ， 它 完全 采用 
Windows 系 统 的 风格 ， 通 过 漂亮 的 图 形 界面 来 企图 表 中 展示 分 析 绪 果 ， 并 人 允许 我 们 对 这 些 表格 进行 操作 。 


am 
我们 可 以 在 不 访问 源 代 码 的 前 提 下 来 追踪 系统 与 程序 库 的 调用 情况 ， 并 监测 程序 的 行为 。 


- 要 学 会 使 用 Windows 系 统 的 Windows Performance Toolkit、Linux 系 统 的 Sys-temTap， 以 及 OS X、Solatis、FteeBSD 系 统 的 


Dtrace 等 工具 。 


第 59 条 : 使 用 动态 程序 分 析 工 具 


有 很 多 专门 的 工具 可 以 对 编译 后 的 程序 进行 修改 ， 向 其 中 注入 一 些 检测 例 程 ， 而 且 可 以 对 程序 的 执行 情况 进行 监控 ， 并 把 有 
可 能 出 错 的 地 万 汇报 给 用 户 。 由 于 这 种 检测 是 在 程序 运行 的 时 候 执 行 的 ， 因 此 称 为 动态 分 析 。 这 些 动态 分 析 技 术 ， 与 我 们 在 第 
51 条 中 所 说 的 那些 静态 分 析 技 术 ， 是 可 以 相互 补充 的 ， 而 且 第 51 条 里 面 提 到 的 某 些 做 法 ， 例 如， 在 编写 JavaScript 程 序 时 使 用 


的 "use strict"; ， 以 及 在 编写 Per 程序 时 使 用 的 use strict; 和 use warnings; 等 ， 其 实 相 当 于 同时 开启 了 静态 检查 与 动态 检查 
功能 。 此 外 ， 第 53 条 里 面 提 到 了 一 些 技术 ， 可 以 把 受 测 程序 与 调试 用 的 程序 库 相 链接 。 这 里 所 说 的 动态 分 析 技 术 ， 可 以 与 那些 
链接 技术 互 为 补充 ， 而 且 那 些 扩 术 也 会 同时 开局 某 些 动态 检测 功能 。 


与 静态 分 析 工 具 相 比 ， 动 态 分 析 工 具 更 容易 检测 到 实际 上 有 可 能 友 生 的 错误 ， 因 为 它们 是 直接 在 程序 执行 代码 时 进行 仍 蹊 ， 
而 不 是 像 静态 工具 那样 ， 去 推测 程序 有 可 能 会 执行 什么 样 的 代码 。 这 意味 痢 动 态 分 析 工 具 所 友 现 的 错误 ， 几 乎 不 太 可 能 是 误 报 。 
然而 ， 由 于 动态 分 析 工 具 只 会 关注 程序 实际 执行 的 代码 ， 因 此 ， 它 或 许 会 忽略 尚未 执行 到 的 那些 代码 路 径 里 面 所 包 合 的 错误 ， 
=, MAWRREABA SIR. 


由 于 动态 分 析 工 具 通 常会 极 大 地 减缓 程序 的 执行 速度 ， 并 且 会 报告 出 很 多 不 太 重要 的 错误 ， 因 此 ， 最 好 是 能 够 先 编写 一 段 特 
别 具 体 的 测试 脚本 ， 把 当前 正在 调试 的 那个 问题 精确 地 重 现 出 来 ， 然 后 再 去 使 用 此 类 工具 。 或 者 也 可 以 把 有 待 分 析 的 代码 ， 放 在 
一 个 真实 且 完 备 的 测试 场景 中 运行 ， 以 此 来 保持 代码 的 整洁 ， 因 为 在 这 个 过 程 中 ， 我 们 可 以 把 动态 分 析 工 具 所 汇报 的 全 部 错误 ， 
都 添加 到 日 名 单 里 面 ， 从 而 能 够 在 修改 代码 之 后 ， 了 立刻 友 现 新 引入 的 那些 错误 。 


许多 动态 分 析 工 具 都 提供 了 一 些 检 测 机 制 ， 用 来 检查 程序 有 没有 使 用 未 经 初始 化 的 变量 、 有 没有 泄漏 内 存 ， 以 及 有 没有 访问 
可 用 内 存 空间 以 外 的 地 址 。 还 有 其 他 一 些 动 态 分 析 工 具 ， 可 以 用 来 寻找 安全 漏洞 、 尚 未 完全 优化 的 代码 、 处 在 受 测 范围 之 外 的 代 
码 (这 表示 程序 的 测试 工作 有 琉 漏 ) 、 隐 式 的 类 型 转换 操作 、 动 态 类 型 不 一 致 ， 以 及 数值 溢出 等 。 此 外 ， 还 可 以 参考 第 62 条 中 
所 说 的 技术 ， 及 用 动态 分 析 工 具 来 捕获 并 发 方面 的 错误 。 维 基 百 科 的 dynamic program analysis 词 条 列 出 了 几 十 种 工具 ， 你 可 
以 根据 自己 所 在 的 环境 、 所 面 对 的 问题 以 及 所 拥有 的 预算 来 从 中 选择 合适 的 工具 。 


有 一 种 流行 的 开源 工具 包 ， 叫 做 Valgrind， 它 是 个 动态 分 析 系统 ， 其 中 含有 一 个 功能 强大 的 内 存 检测 组 件 。 现 在 考虑 下 面 这 
个 程序 ， 该 程序 只 用 3 行 代码 就 展示 出 了 3 种 错误 ， 它 们 分 别 是 : 泄漏 内 存 、 访 问 非法 的 内 存 地 址 ， 以 及 返回 未 经 初始 化 的 变 


=] 


里 。 


#include <stdlib.h> 


int 

main() 

{ 
char *c = malloc(42); 
c[42] = 
return c[0]; 

+ 


如 果 我 们 用 下 面 这 条 命令 来 运行 上 述 程 序 ， 
valgrind --track-origins=yes --leak-check=yes memory 


那么 残 会 看 到 下 面 这 样 的 输出 结果 ， 其 中 列 出 了 全 部 的 三 项 错误 ， 以 及 与 每 项 错误 相对 应 的 程序 位 置 : 


Invalid write of size 1 
at 0x400524: main (memory.c:8) 

Address Ox5lde06a is 0 bytes after a block of size 42 alloc'd 
at 0x4C28C20: malloc (vg_replace_malloc.c:296) 
by 0x400517: main (memory.c:6) 


Syscall param exit_group(status) contains uninitialised byte(s) 
at Ox4EECAB9: _Exit (_exit.c:32) 
by Ox4E6CB8A: __run_exit_handlers (Cexit.c:97) 
by Ox4E6CC14: exit (exit.c:104) 


by Ox4E56B4B: (below main) Clibc-start.c:321) 
Uninitialised value was created by a heap allocation 
at 0x4C28C20: malloc (vg_replace_mal loc.c:296) 


by 0x400517: main (memory.c:6) 
HEAP SUMMARY: 


in use at exit: 42 bytes in 1 blocks 
total heap usage: 1 allocs, O frees, 42 bytes allocated 


42 bytes in 1 blocks are definitely lost in loss record 1 of 1 
at 0x4C28C20: malloc (vg_replace_mal loc.c:296) 
by 0x400517: main (memory.c:6) 


LEAK SUMMARY: 
definitely lost: 42 bytes in 1 blocks 
indirectly lost: 0 bytes in 0 blocks 
possibly lost: 0 bytes in 0 blocks 
still reachable: 0 bytes in 0 blocks 
suppressed: 0 bytes in 0 blocks 


For counts of detected and suppressed errors, rerun with: -v 
ERROR SUMMARY: 3 errors from 3 contexts (suppressed: 0 from 0) 


还 有 一 个 值得 注意 的 动态 分 析 框 架 ， 叫 做 Jalangi， 它 适用 于 客户 端 及 服务 器 端的 JavaScript 程 序 。 该 框架 可 以 对 JavaScript 
代码 进行 转化 ， 令 其 通过 API 来 展示 目 己 的 执行 情况 ， 从 而 使 我 们 能 够 编写 脚本 来 对 其 在 发 生 特 定 事 件 时 的 执行 情况 加 以 验证 ， 
比如 ， 可 以 验证 二 元 算术 操作 的 求 值 情 况 。 这 种 脚本 可 以 探查 JavaScript 代 码 中 的 各 种 问题 。 现 在 考虑 下 面 这 段 代码 ， 它 会 产生 
一 个 无 效 的 数 ， 在 JavaScript 中 ， 这 也 称 为 非 数 (not a number) NaN., 


var a a’: 
var b = a * 2; 
console. log(b); 


如 果 我 们 用 该 工具 的 作者 所 提供 的 检测 器 来 撰写 脚本 ， 并 将 其 放 在 Jalangi 之 下 运行 ， 那 么 融会 看 到 下 面 这 样 的 错误 : 


[Location: line No.: 2, col: 9] 
binary operation leads to NaN:NaN <- a [string] * 2 [number] 
[Location: line No.: 2, col: 9] writing NaN value to 
variable:b: NaN 
[Location: line No.: 3, col: 13] read NaN from variable b :NaN 


- 用 动态 程序 分 析 工 具 来 寻找 代码 运行 过 程 中 的 实际 问题 。 


第 8 草 vale Seni 


CPU 制 造 商 会 在 心 片 所 能 容纳 的 前 提 下 把 越 来 越 多 的 晶体 管 放 入 多 个 核心 中 ， 并 请 求 开 友 者 善 用 这 些 核心 。 如 果 运 行 在 多 
个 CPU 内 核 上 的 各 条 执行 线程 彼此 不 进行 协调 ， 那 么 它们 殊 会 各 目 按 照 最 快 的 万 式 执 行 。 而 这 样 做 ,会 令 程序 的 执行 效果 显得 
不 那么 确定 ， 因 为 每 次 运行 程序 的 时 候 ， 这 些 线程 的 执行 顺序 都 会 科 上 一 次 稍 有 区 别 。 于 是 ， 本 书 其 他 各 章 所 讲解 的 许多 技术 ， 
在 多 线程 环境 下 都 会 失效 。 比 如 ， 由 于 我 们 要 寻找 的 bug 忌 是 蒜 忽 人 不定， 因此 很 难 像 第 4 条 所 说 的 那样 ， 及 用 可 靠 的 办 法 来 详细 
观察 该 bug。 所 和平 有 各 种 工具 和 近 巧 ， 可 以 专门 用 来 解决 此 类 问题 。 


请 注意 ， 本 章 所 提 到 的 许多 技巧 ， 针 对 的 都 是 那些 明确 使 用 了 低级 并 上 友 组 件 的 代码 ， 例 如 ， 操 作 系统 、 数 据 库 、 游 戏 引 警 或 
程序 库 等 系统 级 的 代码 ， 以 及 那些 有 得 维护 的 遗留 软件 中 的 代码 。 对 于 应 用 程序 级 别 的 软件 来 说 ， 如 果 要 从 头 开始 制作 ， 那 么 大 
多 数 情 况 下 ， 都 应 该 直接 使 用 高 级 的 并 友 抽 销 机 制 ， 而 不 应 该 使 用 低级 的 并 友 组 件 (参见 第 66 条 ) 。 如 果 你 感 总 目 己 在 调试 这 
些 新 写 的 并 友 代 码 时 花 的 时 间 太 多 了 ， 那 么 可 能 要 想 一 想 你 的 编程 方式 是 不 是 有 错 。 


第 60 条 : 通过 事后 调试 来 分 析 死 席 上 问题 


如 果 有 一 组 线程 ， 其 中 的 每 条 线程 都 在 获取 了 目 己 所 需 的 资源 之 后 ， 想 要 继续 获取 由 其 他 线程 所 占据 的 资源 ， 那 么 这 组 线程 
束 会 陷入 无 尽 的 等 竺 中， 从 而 无 法 继续 运作 ， 这 融 是 死 锁 现象 。 比 如 ， 现 在 有 两 个 共用 的 数据 结构 ， 分 别 为 甲 、 乙 两 条 绪 程 所 占 
据 ， 而 这 两 条 线程 都 必须 继续 锁定 另外 一 个 数据 结构 才能 够 向 下 执行 ， 于 是 ， 它 们 殊 会 不 停 地 试 着 去 获取 由 对 方 所 占据 的 那个 数 
据 结 构 ， 从 而 陷入 僵局 。 此 时 ， 我 们 融 况 ， 这 两 条 线程 友 生 了 死 锁 。 据 襄 ，Kansas 的 议会 有 过 这 样 一 个 提议 ， 它 极 好 地 况 明 了 
什么 叫做 死 锁 : 


“两 辆 火车 在 铁道 口 相遇 时 ， 都 应 该 完全 停 下 ， 直 到 另外 一 方 走 后 ， 才 可 以 再 度 出 友 。 " 


«ACM Queue》 上 有 一 篇 文章 《Real-world Concurrency》， 其 作者 Bryan CantrillSJeff Bonwick 认 为 : 有 很 多 谈论 并 
上 友 问 题 的 人 都 把 死 锁 摘 绘 得 过 于 可 怕 了 ， 其 实在 并 上 友 方 面 的 各 种 bug 中 ， 它 是 最 容易 分 析 的 一 类 。 因 为 死 锁 的 系统 ， 实 际 上 残 是 
一 个 处 在 冻结 状态 的 和 系统， 于是， 我 们 可 以 将 其 状态 保存 到 核心 转 储 文 件 里 面 (参见 第 35 条 ) ， 然 后 对 该 文件 进行 分 析 ， 以 寻 
找 当时 陷入 等 待 状态 的 那些 线程 以 及 它们 所 执行 到 的 位 置 。 通 过 该 信息 ， 我 们 可 以 发 现 与 死 锁 有 天 的 实体 (如 两 个 或 多 个 锁 ) ， 


并 了 解 其 所 对 应 的 错误 ， 这 种 错误 一 般 是 指 多 个 线程 在 某 一 组 资源 上 陷入 了 循环 等 待 。 


程序 清单 8.1 ”会 陷入 死 锁 的 C+ + 程序 


1 #include <iostream> 
2 #include <mutex> 
3 #include <thread> 
4 #include <unistd.h> 
5 
6 using namespace std; 
rd 
8 static mutex ml, m2; 
9 
10 void bob() 
ll { 
12 lock_guard<mutex> gl(m1); 
13 sleep(1); 
14 lock_guard<mutex> g2(m2); 
15 cout << "Hi, it's Bob" << endl; 
16 } 
17 
18 void alice() 
19 { 
20 lock_guard<mutex> gl(m2) ; 
ZI sleep(1); 
22 lock_guard<mutex> g2(m1); 
23 cout << "Hi, it's Alice" << endl; 
24 } 
25 
26 int main() 
27 4 
28 thread t_bob(bob) ; 
29 thread t_alice(alice); 
30 
3] t_bob.join(d); 
32 t_alice.joinQd); 
3 He return 0; 
34 } 


现在 我 们 来 看 程序 清单 8.1 中 的 这 个 C++ 程序 (该 程序 遵从 C++11 标 准 ) . bobkšalice Áa TEARRE, 6 
们 都 必须 先 获取 m1 和 m2 这 两 把 互 斥 锁 ， 然 后 才能 够 继续 执行 。 于 是 ， 这 个 C++ 程序 偶尔 残 有 可 能 友 生 冻结 。 如 果 你 想 更 明确 
地 观察 这 种 效果 ， 那 么 可 以 把 该 程序 放 到 下 面 这 个 shell 循 环 里 面 运行 : 


while true ; do 
deadlock 
done & 


[RADE MESURE, UL TAXES RALE. KES REAU FERIRA Aaa, 
然而 也 可 以 运用 到 其 他 平台 上 面 。 


假设 这 个 程序 是 在 客 己 所 在 的 地 方 友 生 冻 结 的 ， 那 么 第 一 步 应 该 获取 该 程序 的 核心 转 储 文件 。 我 们 需要 用 ps 命令 找到 程序 


所 对 应 的 process-id， 然 后 用 kill 命 令 给 具有 这 个 id 的 程序 发 送 QUIT 信 和 号。 


$ ps 
PID TTY TIME CMD 
23010 pts/0 00:00:00 bash 
23153 pts/0 00:00:00 bash 
23175 pts/0 00:00:00 deadlock 
23203 pts/0 00:00:00 ps 
$ kill -QUIT 23175 
-bash: line 15: 23175 Quit (core dumped) deadlock 


然后 ， 我 们 把 从 客 尸 那里 收集 到 的 核心 转 储 文件 复制 过 来 ， 并 在 它 上 面 运行 gdb 命 令 。 由 于 这 份 文件 要 反映 出 进程 的 内 存 布 
局 ， 因 此 ， 可 能 会 占据 好 几 MB 的 空间 (本 例 中 的 这 份 文件 在 Linux 系 统 上 是 17MB， 在 FreeBSD 系 统 上 是 9MB) ， 不 过 其 中 大 
部 分 内 容 可 能 都 是 空 日 ， 于 是 ， 很 容易 残 能 将 其 压缩 到 几 KB， 并 通过 电子 邮件 及 大 过 来 。 在 调用 gdb 命 令 时 ， 要 指定 可 执行 程 
序 的 镜像 名 称 ， 以 及 内 存 转 储 文件 的 名 称 。 


gdb deadlock core 


然后 ， 列 出 当时 正在 执行 的 线程 。 


(gdb) info threads 
Id Target Id Frame 
3 Thread Ox7f6be668c700 (LWP 22096) __111_lock_wait © 
2 Thread 0x7f6be6e8d700 (LWP 22095) __11]l_lock_wait () 
* 1 Thread 0Ox7f6be7e7e740 (LWP 22094) O0x00007f6be72404db 
in pthread_join (threadid=140101412247296, thread_return=0x0) 


现在 我 们 可 以 看 到 ， 这 两 个 绪 程 似乎 都 在 等 寿 获 取 某 一 把 锁 。 如 果 程 序 更 为 复 民 ， 那 么 可 能 只 会 看 到 其 中 的 某 一 部 分 线程 在 
等 竺 某 种 资源 ， 而 不 是 像 本 程序 这 样 ， 所 有 的 续 程 都 在 等 待 着 资源 。 对 于 那 种 程序 来 况 ， 只 需要 天 注 正在 等 待 痪 源 的 那些 线程 残 
可 以 了 。 


接 下 来 ,我 们 根据 刚才 在 最 左边 那 一 栏 中 显示 出 的 线程 1D 来 从 中 选择 一 个 正在 等 待人 资源 的 线程 ， 并 将 其 1D 传 给 thread 命 


a 
Xo 


(gdb) thread 2 
[Switching to thread 2 (Thread 0x7f6be6e8d700 (LWP 22095)) | 
#0 __l1lll_lock wait () 
at ../nptl/sysdeps/unix/sysv/1linux/x86_64/ lowlevel lock.$:135 


把 该 线程 的 栈 帧 打印 出 来 ， 以 便 寻 找 程序 究竟 是 在 运行 到 哪 一 行 代码 的 时 候 试 图 去 获取 这 把 锁 的 。 


(gdb) backtrace 

#0 __11]1_lock_wait () 
at ../nptl/sysdeps/unix/sysv/linux/x86_64/ lowlevel lock.S:135 

#1 0x00007f6be72414b9 in _L_lock_909 () 
from /11b/x86_64-1linux-gnu/libpthread.so.0 

#2 0x00007f6be72412e0 in _GI__pthread_mutex_lock (mutex= 
0x6046c0 <m2>) at ../nptl/pthread_mutex_lock.c:79 

#3 0x000000000040109e in __gthread_mutex_lock (__mutex=0x6046c0 
<m2>) at /usr/include/x86_64- 1inux-gnu/c++/4.9/bits/ 
gthr-default.h:748 

#4 0x000000000040141a in std: :mutex::lock (this=0x6046c0 <m2>) 
at /usr/include/c++/4.9/mutex:135 

#5 0x00000000004015ce in std:: lock_guard<std: :mutex>: : lock_guard 
(this=0x7f6be6e8ce40, _ m=...) at /usr/include/c++/4.9/mutex: 
377 

#6 0x0000000000401192 in bob () at deadlock.cpp:12 

#7 0x0000000000402785 in std::_Bind_simple<void (*())Q>:: 
_M_invoke<>(std::_Index_tuple<>) (this=0x2438038) at 
/usr/include/c++/4.9/functional :1700 
e 

#12 0x00007f6be6F7404d in clone () 


仔细 查看 刚才 的 程序 清单 ， 我 们 殊 会 友 现 ， 问 题 出 在 deadlock.cpp 的 第 14 行 代码 上 。 


接 下 来 ， 针 对 陷入 死 锁 状态 的 其 他 线程 ， 执 行 同 样 的 操作 。 


(gdb) thread 3 
[Switching to thread 3 (Thread 0x7f6be668c700 (LWP 22096)) | 


#0 __I1l_lock_wait () 
at ../nptl/sysdeps/unix/sysv/1inux/x86_64/ lowlevel lock.$:135 

(gdb) backtrace 

#0 __111l_lock_wait () 
at ../nptl/sysdeps/unix/sysv/1inux/x86_64/ lowlevel lock.$:135 

#1 0x00007f6be72414b9 in _L_lock_909 () 
from /11b/x86_64-1inux-gnu/libpthread.so.0 

#2 0x00007f6be72412e0 in _GI___pthread_mutex_lock (mutex= 
0x604680<m1l>) at ../npt!l/pthread_mutex_lock.c:79 

#3 0x000000000040109e in __gthread_mutex_lock (__mutex=0x604680 
<ml>) at /usr/include/x86_64- 1linux-gnu/c++/4.9/bits/ 
gthr-default.h:748 

#4 0x000000000040141a in std: :mutex:: lock (this=0x604680 <m1>) 
at /usr/include/c++/4.9/mutex:135 

#5 0x00000000004015ce in std:: lock_guard<std: :mutex>:: lock_guard 
(this=0x7f6be668be40, m=...) at /usr/include/c++/4.9/mutex: 
377 

#6 0x000000000040122f in alice () at deadlock.cpp:19 

#7 0x0000000000402785 in std::_Bind_simple<void (*(Q))Q>:: 
_M_invoke<>(std::_Index_tuple<>) (this=0x2438038) at 
/usr/include/c++/4.9/functional:1700 
rr 

#12 Ox00007f6be6F7404d in clone () 


上 述 程序 清单 中 的 信息 告诉 我 们 : 另外 一 条 线程 卡 在 了 deadlock.cpp 文 件 的 第 22 行 。 查 看 该 行 附近 的 代码 之 后 ， 我 们 就 会 
友 现 ， 之 所 以 会 产生 死 锁 ， 是 因为 bob 函 数 人 在 获取 了 m1 之 后 ， 还 想 继 续 获 取 m2 (这 友 生 在 deadlock.cpp 文 件 的 第 14 行 ) ， 而 
另 一 方面 ，alice 国 数 则 在 获取 了 m2 之 后 ， 还 想 继续 获取 m1 (这 友 生 在 deadlock.cpp 文 件 的 第 22 行 ) 。 


如 果 系 统 有 可 能 友 生 死 锁 ， 那 么 其 设计 者 融 应 该 制订 一 套 处 理 办 法 。 可 以 用 来 应 对 死 锁 问 题 的 方式 包括 忽视 死 锁 、 检 测 死 
锁 、 预 防 死 锁 或 避免 死 锁 等 。 在 调试 死 锁 问 题 的 时 候 ， 应 该 先 了 解 正 在 调试 的 这 个 系统 到 托 是 采用 哪 种 方式 来 应 对 死 锁 的 。 为 
此 ， 我 们 可 以 查阅 该 系统 的 文档 。 然 而 更 为 务实 的 办 法 ， 则 是 去 检查 它 的 代码 ， 看 看 其 中 会 不 会 出 现 可 能 引 友 死 锁 的 状况 。 如 果 
你 碰巧 是 第 一 个 友 现 该 系统 会 出 现 死 锁 的 人 ， 那 么 你 应 该 做 的 事情 ， 通 单 是 自己 来 设计 一 套 处 理 死 锁 问 题 的 方案 。 你 可 以 尽量 缩 
减 锁 的 数量 、 避 免 重 入 、 建 立 锁定 体系 ， 或 是 在 代码 中 使 用 适当 的 同步 原 语 ， 令 程序 任 有 可 能 友 生 死 锁 时 ， 无 法 获取 到 相应 的 
锁 ， 从 而 避免 其 陷入 阻塞 。 如 果 这 些 方 案 都 行 不 通 ， 那 么 你 融 必 须根 据 系统 对 死 锁 问 题 的 处 理 方式 来 修改 目 己 的 代码 了 。 对 于 本 
例 来 癌 ， 较 为 实用 的 一 种 做 法 ， 是 对 获取 资源 的 顺序 进行 调整 ， 以 确保 这 些 资源 总 是 按照 某 种 确定 的 顺序 来 进行 锁定 (调整 之 前 
的 那 种 顺序 ， 有 一 个 专门 的 称呼 叫做 偏 序 ， 可 以 用 来 换 述 较为 复杂 的 资源 依赖 关系 ) 。 于 是 ,我 们 只 需要 把 alice 销 数 的 加 锁 
顺序 调换 一 下 就 行 了 。 


lock_guard<mutex> g1(m1); 


lock_guard<mutex> g2(m2); 
cout << "Hi, it's Alice" << endl; 


程序 清单 8.2 ”可 能 陷入 死 锁 的 Java 程 序 


1 public class Deadlock { 
2 public static void main(String[] args) { 
3 Object mutexl = new Object(); 
4 Object mutex2 = new Object(); 
5 
6 Runnable bob = () -> { 
7 for (int i = 0; 1 < 1000; i++) 
8 synchronized(mutex1) { 
9 synchronized(mutex2) { 
10 System.out.printInC"Hi, it's Bob " + 1); 
11 } 
12 } 
13 P 
14 Runnable alice = () -> { 
15 for (int i = 0; i < 1000; i++) 
16 synchronized(mutex2) { 
17 synchronized(mutexl) { 
18 System.out.printInC"Hi, it's Alice " + i); 
19 } 
20 } 
21 Fi 
22 
23 Thread at = new Thread(alice); 
24 Thread bt = new Thread(bob); 
25 
26 bt.start(); 
27 at.start(); 
28 
29 try { 
30 at.join(d); 
31 bt.join(d); 
32 } catch(InterruptedException e) { 
33 System.err.printInC"Interrupted: ”+ e); 
34 } 
35 } 
36 } 


现在 我 们 再 举 一 个 例子 ， 看 看 性 样 调 试 Java 程 序 的 死 锁 问题 。 程 序 清 单 8.2 所 发 生 的 死 锁 现象 ， 与 前 面 那 个 例子 类 似 ， 它 通 
常 也 会 在 打印 了 几 次 “Hi it' s Bob" 之后， 就 陷入 阻塞 。 所 幸 Oracle 的 Java Development Kit 里 面 提 供 了 jstack 命 令 ， 可 以 较 
为 容易 地 找到 死 锁 的 原因 。 我 们 需要 查询 陷入 死 锁 的 那个 进程 所 对 应 的 process-id， 然 后 把 这 个 1D 作 为 参数 ， 传 给 jstack， 以 显 
示 出 与 死 锁 有 天 的 信息 及 相关 的 代码 。 


$ jps 

5504 Deadlock 

8848 Jps 

$ jstack -1 5504 

2016-02-15 18:37:53 

Full thread dump Java HotSpot(TM) Client VM 
Found one Java-level deadlock: 


Thread-0 : 
waiting to lock monitor 0x00d66d64 (object 0x0487f930, 
a java.lang.Object), which is held by "Thread-1" 
“Thread-1": 
waiting to lock monitor Ox00d66dd4 (object 0x0487f938, 
a java.lang.Object), which is held by "Thread-0O" 


Java stack information for the threads listed above: 


Thread-0 : 
at Deadlock. lambda$main$1(Deadlock.java:18) 
- waiting to lock <0x0487f930> (a java.lang.Object) 
- locked <0x0487f938> (a java.lang.Object) 
at Deadlock$$Lambda$2/29293983.runCUnknown Source) 
at java. lang. Thread. run(Thread.java:745) 
"Thread-1": 
at Deadlock. lambda$main$0(Deadlock.java:10) 
- waiting to lock <0x0487f938> (a java.lang.Object) 
- locked <0x0487f930> (a java.lang.Object) 
at Deadlock$$Lambda$1/19011157.runCUnknown Source) 
at java. lang. Thread. run(Thread.java:745) 


Found 1 deadlock. 


要 后 


` 要 想 调试 死 锁 问 题 ， 就 应 该 对 死 锁 的 程序 做 一 份 快 照 ， 看 看 究 况 有 哪些 线程 和 代码 ， 在 争夺 同一 套 资源 时 陷入 了 伪 局 。 


第 61 条 : HERH EI 


有 一 种 效果 很 好 的 办 法 ， 是 把 程序 在 运行 过 程 中 所 执行 的 操作 详细 记录 下 来 ， 并 据 此 来 应 对 那些 含有 不 确定 因素 的 bug。 
Intel 的 PinPlay/DrDebug Program Record/Replay Toolkit 就 属于 此 类 工具 ， 它 针对 的 是 Intel 架 构 的 二 进 制 文件 。 该 工具 可 以 
与 Eclipse 或 gdb 结 合 起 来 使 用 。 还 有 一 种 能 够 应 对 Java 程 序 的 记录 器 与 调试 器 ， 叫 做 Chronon。 这 些 工 具 会 详细 地 记录 程序 在 
运行 过 程 中 所 发 生 的 事件 ， 使 你 能 够 看 到 这 些 操作 究竟 是 以 什么 样 的 顺序 来 在 多 个 内 核 上 面 并 发 执行 的 。 例 如 ， 它 们 会 把 程序 对 
主 内 存 的 读 取 和 写 入 行为 记录 下 来 ， 以 有 反映 程序 在 执行 相关 操作 时 所 依照 的 实际 顺序 。 


我 们 可 以 按照 下 列 步 又 来 捕获 并 重 现 系统 中 的 bug。 


1. 开 局 记录 功能 ， 并 反复 运行 应 用 程序 ， 直 到 能 够 重 现 pug。 如 果 bug 的 友 生 概率 比较 低 ， 那 么 可 以 把 程序 放 企 shell 脚 本 里 
面 反复 运行 (参见 第 60 条 ) ， 令 bug 能 够 尽快 表现 出 来 。 等 bug 表 现 出 来 之 后 ， 我 们 把 记录 到 的 结果 保存 起 来 ， 以 便 进 行 后 续 的 
分 析 。 


2. 对 记录 到 的 结果 进行 分 析 ， 找 到 bug 最 先 出 现 的 地 点 。 在 该 步骤 中 ， 可 以 使 用 一 种 叫做 程序 切片 分 析 (program slice 
analysis) 的 技术 来 协助 我 们 找 出 线程 之 间 比 较 可 疑 的 那些 依赖 关系 。 看 看 自己 所 使 用 的 工具 是 否 支 持 这 项 技术 。 


3. 把 程序 放 在 调试 器 中 运行 ， 并 对 把 原来 所 记录 到 的 结果 进行 重 放 ， 和 直至 程序 运行 到 出 现 bug 的 那个 地 方 。 
4. 对 程序 在 该 点 的 状态 进行 分 析 ， 以 寻找 bug 背 后 的 错误 原因 。 
程序 清单 8.3” 带 有 竞争 条 件 的 程序 

#include <assert.h> 

#include <pthread.h> 

#include <stdio.h> 


#include <stdlib.h> 


#include <unistd.h> 
#define C(x) assert((x) == 0) 


static int counter; 


void *increment(void *threadid) 


{ 
int i, tmp; 
for (i = 0; 1 < 100000; i++) { 
tmp = counter; 
tmp++; 
counter = tmp; 
$ 
return (NULL); 
} 
int main() 
{ 
pthread_t tid[2]; 
int 1; 
for (i = 0; 1 < 2; 1++) 
C(Cpthread_create(&tid[i], NULL, increment, NULL)); 
for (i = 0; i < 2; i++) 
C(Cpthread_join(tid[i], NULL)); 
printfC"counter=%d\n", counter); 
return 0; 
} 


现在 来 看 一 个 具体 的 例子 。 程 序 清单 8.3 中 的 代码 会 出 现 葛 争 条 件 的 问题 ， 因 为 它 在 执行 与 counter 变 量 有 关 的 读 取 、 弟 增 
及 写 入 操作 时 ， 并 没有 将 这 些 操作 合 起 来 视 为 一 项 原子 操作 。 多 运行 几 次 程序 ， 融 可 以 看 出 这 个 问题 。 


$ ./race 
counter=1L00000 


$ ./race 
counter=103754 
$ ./race 
counter=101233 
$ ./race 
counter=100000 
$ ./race 


counter=103977 


为 了 执行 上 面 提 到 第 一 个 步骤 ， 我 们 需要 用 PinPlay 把 有 问题 的 运行 过 程 记录 下 来 。 此 外 ， 你 也 可 以 用 相应 的 Eclipse 插件 来 
执行 类 似 的 操作 。 如 果 要 用 gdb _ record 进行 记录 ， 那 么 残 在 程序 进入 main 国 数 时 ， 执 行 pin record on 命令 。 要 是 程序 在 这 次 
运行 的 过 程 中 没有 表现 出 故障 ， 那 就 重复 此 过 程 ， 直 到 故障 表现 出 来 。 程 序 在 接受 记录 时 ， 其 运行 速度 至 少 要 比 debug 版 本 慢 
两 个 数量 级 ， 因 此 ， 如 果 程序 较为 复杂 ， 那 么 应 该 尽量 晚 一 些 开始 记录 。 


$ gdb_record race 

(gdb) break main 

Breakpoint 1 at Ox400730: file race.c, line 28. 
(gdb) continue 

Continuing. 

Breakpoint 1, main () at race.c:28 

28 for (1 = 0; 1 < 2; 1++) 

(gdb) pin record on 

monitor record on 

Started recording region number 0 

(gdb) continue 

Continuing. 

counter=127873 

[Inferior 1 (Remote target) exited normally] 
(gdb) quit 


记录 下 来 的 数据 会 存放 在 pinball 目 录 中 ， 我 们 可 以 用 replay 命 令 来 重 放 。 由 于 程序 在 重 放 的 过 程 中 ， 会 按照 和 当初 相同 的 
顺序 来 操作 内 存 ， 因 此 ， 也 会 表现 出 同样 的 错误 行为 。 


$ replay pinball/log_0 
counter=127873 
$ replay pinball/log_0 
counter=127873 
$ replay pinball/log_0 
counter=127873 


然后 ， 我 们 需要 根据 记录 下 来 的 数据 ， 把 程序 放 在 gdb 调 试 器 中 运行 ， 并 监控 第 16 行 代码 里 面 的 tmp 变 量 . 


$ gdb_replay pinball/log_0 ./race 

0x0000000000400737 in main () at race.c:28 

28 for (1 = 0; 1 z 2: 1++) 

(gdb) pin trace tmp at 16 

monitor trace [ Ox4006ed : %rsp + -12 ] 4 at Ox4006fe #tmp:<16> 
Tracepoint #1: trace memory [0x4006ed : %rsp offset -12 | 
length 4 at 0x4006fe #tmp:<16> 

(gdb) break _exit 

Breakpoint 1 at Ox7f09dbab22d0: _exit. (2 locations) 
(gdb) continue 

Continuing. 

counter=127873 


Breakpoint 1, __GI__exit (status=status@entry=0) 
at ../sysdeps/unix/sysv/linux/_exit.c:28 

(gdb) pin trace print to tmp.txt 

monitor trace print to tmp.txt 

(gdb) quit 


程序 执行 完 之 后 ， 生 成 的 追踪 信息 会 存放 在 tmp.txt 文 件 里 面 。 该 文件 的 内 容 如 下 所 示 。 大 家 可 以 想见 : 如 果 程 序 编写 得 没 
有 问题 ， 那 么 变量 的 值 (也 就 是 等 号 右边 的 那个 值 ) 总 是 应 该 持续 增加 。 


Ox00000000004006fe: [ 0x0004006ed:rsp + -12] = Ox7f09 #tmp:<16> 
Ox00000000004006fe: [ 0x0004006ed:rsp + -12] = 0x1 #tmp:<16> 
Ox00000000004006fe: [ 0x0004006ed:rsp + -12] = 0x2 #tmp:<16> 
Ox00000000004006fe: [ 0x0004006ed:rsp + -12] = 0x3 #tmp:<16> 
Ox00000000004006fe: [ 0x0004006ed:rsp + -12] = 0x4 #tmp:<16> 
Ox00000000004006fe: [ Ox0004006ed:rsp + -12] = Ox5 #tmp:<16> 


拿 天 这 份 追踪 信息 之 后 ， 我 们 就 可 以 在 其 中 寻找 重复 的 tmp 值 ， 如 果 能 找到 这 样 的 值 ， 那 束 襄 明 程 序 在 这 里 出 了 问题 。 下 面 
这 条 shell 命 令 ， 会 提取 每 行文 本 的 第 7 个 字段 (也 就 是 代表 tmp 值 的 那个 字段 ) ， 对 其 排序 ， 和 寻找 重复 的 值 ， 并 把 开头 的 几 个 值 
打印 出 来 。 


$ cut -d' ' -f7 tmp.txt | sort | uniq -d | head 
Ox108e5 
0x108e6 
0x108e7 


从 追踪 信息 里 面 找 到 重复 出 现 的 tmp 值 (如 0x108e5) 之 后 ， 就 可 以 执行 pin break 16 if tmp==0x108e5 命 令 来 添加 条 件 
新 点 了 。 这 种 断 点 ， 会 使 得 程序 的 重 放 过 程 在 tmp 值 出 现 重复 时 停 下 来 。 


生 的 


$ gdb_replay pinball/log_0O ./race 

0x0000000000400737 in main () at race.c:28 

28 for (i = 0; 1 < 2; i++) 

(gdb) pin break 16 if tmp == 0x108e5 

monitor break at Ox4006fe if [ Ox4006ed : %rsp + -12 | 

4 == 0x108e5 #tmp:<16> 

Breakpoint #1: break at 0x4006fe if [0x4006ed :$rsp offset -12] 
length 4 == 0x108e5 #tmp:<16> 

(gdb) continue 

Continuing. 

Triggered breakpoint #1: break at Ox4006fe if [0x4006ed :$rsp 
offset -12 ] length 4 == 0x108e5 #tmp:<16>[New Thread 13259] 


Program received signal SIGTRAP, Trace/breakpoint trap. 
[Switching to Thread 13259] 

increment (threadid=0x0) at race.c:16 

16 tmp = counter; 


重 放 的 过 程 中 ， 如 果 程 序 停 在 了 你 早 前 所 指定 的 断 点 处 ， 那 你 融 应 该 查看 每 一 条 线程 及 其 所 拥有 的 变量 值 ， 进 而 了 解 问题 友 
原因 。 从 下 面 这 段 调试 会 话 中 可 以 看 到 ， 两 个 线程 所 拥有 的 tmp 变 量 ， 其 取 值 是 相同 的 ， 这 说 明 设 定 tmp 变 量 的 操作 ， 与 更 


新 counter 变 量 的 操作 ， 本 来 应 该 视 为 一 项 原子 操作 ， 完 整地 执行 ， 而 不 应 该 容许 其 中 友 生 线程 切换 现象 。 


要 所 


(gdb) print tmp 

$1 = 67813 

(gdb) info threads 
[New Thread 13258] 


Id Target Id Frame 
3 Thread 13258 0x000000000040070e in increment 
(threadid=0x0) at race.c:18 
* 2 Thread 13259 increment (threadid=0x0) at race.c:16 
1 Thread 13248 0x00007FO09dbdbf66b in pthread_join ( 


threadid=139680249001728, thread_return=0x0) 
at pthread_join.c:92 
(gdb) thread 3 
[Switching to thread 3 (Thread 13258) ] 
#0 0x000000000040070e in increment (threadid=0x0) at race.c:18 


18 counter = tmp; 
(gdb) print tmp 
$2 = 67813 


要 想 探查 那 种 带 有 不 确定 因素 的 并 发 错误 ， 首 先 应 该 把 有 问题 的 执行 过 程 记 录 下 来 ， 然 后 对 记录 到 的 信息 进行 分 析 ， 接 下 


来 根据 捕获 到 的 记录 文件 ， 在 调试 器 里 面 对 程 序 的 执行 过 程 进 行 重 放 。 


第 62 条 : 


用 专 | JS LER nS AR alee 


编写 底层 的 多 线程 代码 ， 是 一 项 很 容易 出 错 的 工作 ， 它 的 风险 ， 几 乎 和 骑 着 大 象 在 冰 面 上 走动 一 样 。 在 编写 这 种 代码 的 过 程 
中 ， 你 会 引入 很 多 微妙 的 错误 ， 而 且 每 一 个 这 样 的 错误 ， 都 有 可 能 在 即将 友 布 演示 版 ， 或 是 即将 到 达 交 工期 限 的 时 候 ， 突 然 友 生 
具 


在 客户 的 计算 机 上 面 。 如 果 我 们 能 够 通过 工 


来 找到 这 些 并 友 错 误 ， 那 束 能 省 下 很 多 应 付 此 类 问题 的 时 间 。 


有 一 种 办 法 是 对 代码 执行 静态 分 析 ， 从 中 寻找 可 能 引 友 bug 的 模式 (参见 第 51 条 ) 。 比 如 ，FindBugs 工 具 束 可 以 找到 45 种 
与 “多 线程 的 正确 性 ”有 关 的 错误 。 这 些 错误 可 以 揭示 出 不 正确 的 同步 元 素 、 未 匹配 的 wait(0 与 notify0、 不 一 致 的 同步 、 未 加 保 
护 的 字段 以 及 未 能 释放 的 锁 等 问题 。FindBugs 工 具 既 可 以 从 命令 行 、 图 形 界面 及 IDE 里 面 运行 ， 也 可 以 纳入 持续 集成 的 过 程 中 。 


现在 考虑 下 面 这 段 代 码 : 


] 
2 
3 
二 
5 
6 
T 
8 
号 


10 
11 
12 
13 
14 
I5 } 


class Counter { 


private int n = 0; 


public synchronized void increment() { 
n+ 二 ; 


} 


public void decrement() { 
h-i 


} 


public synchronized int value() { 
return n; 


} 


URIE R 8AP MER. AERAN DAANEN I Bea 100000 REIRA E. 


程序 清单 8.4 ”在 多 个 线程 中 使 用 同一 个 计数 器 


class ExerciseCounter { 
public static void main(String[] args) { 
final Counter c = new Counter(); 


final int ITERATIONS = 100000; 
Thread inc = new Thread() { 


public void runo) { 
for (int i = 0; i < ITERATIONS; i++) 
c.increment() ; 
} 
$; 


Thread dec = new Thread() { 
public void run() { 
for (int 1 = 0; 1 < ITERATIONS; i++) 
c.decrement(); 


} 
i; 


inc.start(); 
dec.start(); 


try { 
inc.joind); 
dec.join(); 


} catch CInterruptedException e) { 
System.err.printIn(e); 


System.out.printIn(c.value(Q)); 


上 述 程序 运行 之 后 ， 通 常会 打印 出 负 值 (如 -6775) 而 不 是 0。 (笔者 觉得 大 家 应 该 能 看 出 其 中 的 bug， 然 而 你 能 不 能 解释 
一 下 ， 它 打印 出 来 的 为 什么 经 常 是 负数 而 不 是 正 数 呢 ? ) 

如 果 你 编译 Counter 类 ， 并 在 编译 出 来 的 class 文 件 上 面 运行 FindBugs 工 具 ， 那 么 就 可 以 看 出 : decrement 方 法 缺少 
synchronized 关 键 字 。 


$ java -jar findbugs.jar -textui Counter.class 


MM IS: Inconsistent synchronization of Counter.n; 
locked 60% of time 
Unsynchronized access at Counter.java:[line 9] 


单 隅 得 很 远 ， 以 致 大 多 数 静 态 分 析 工 具 对 此 都 无 能 为 力 。 


与 其 他 常见 的 动态 分 析 工 具 一 样 ， 当 你 把 软件 放 在 这 种 工具 下 面 运 行 的 时 人 息 ， 其 速度 会 慢 好 几 个 数量 级 ， 而 且 其 消耗 的 内 
存 ， 也 会 大 幅 增 加 。 如 果 你 想 详 细 检 人 视 各 条 线程 之 间 的 依赖 天 系 ， 那 么 必须 付出 这 种 代价 。 所 幸 现 在 的 64 位 CPU 很 强大 ， 能 够 
使 用 数 十 G 的 内 存 来 运作 ， 甚 至 在 笔记 本 电脑 上 面 ， 也 可 以 完成 一 些 几 年 前 无 法 想象 的 任务 。 如 果 你 正在 为 很 多 遗留 代码 添加 多 


线程 功能 ， 那 么 这 泽 动 态 分 析 工 具 ， 或 许可 以 帮助 你 找 出 数 十 种 bug， 因 此 ， 即 便 运 行 的 速度 慢 一 点 ， 占 用 的 内 仔 多 一 点 ， 我 
想 ， 也 绝对 是 值得 的 。 


下 面 举 两 个 例子 ， 用 以 演示 怎样 通过 动态 分 析 来 寻找 OpenMP 及 POSIX Threads 代 码 中 的 错误 。 
首先 看 OpenMP 的 例子 。 下 面 是 一 段 简单 的 程序 ， 它 会 用 多 条 线程 来 递增 同一 个 counter 变 量 。 


#include <assert.h> 
#include <stdio.h> 
#include <stdlib.h> 


int main() 

{ 
int 1, counter; 

#pragma omp parallel 
for (1 = 0; 1 < 100000; i++) 

counter++; 

printfC"counter=%d\n", counter); 
return 0; 


如 果 你 多 次 运行 上 述 程 序 ， 那 么 束 会 看 到 多 个 不 同 的 结果 ， 这 显然 说 明代 码 写 得 有 问题 。 


$ ./race 
counter=399757 
$ ./race 
counter=95561 
$ ./race 
counter=195790 


我 们 在 编译 代码 的 时 候 开 局 调试 选项 ， 然 后 把 编译 好 的 程序 ， 放 在 Intel Inspector 工 具 下 面 运行 ， 以 寻找 其 中 的 死 锁 和 数据 
竞争 问题 。 该 工具 会 生成 图 8.1 这 样 的 列表 ， 其 中 询 有 两 个 数据 竞争 问题 ， 由 此 我 们 显然 可 以 看 出 : 变量 i 没有 在 线程 之 间 得 到 下 
确 的 共享 ， 而 且 对 counter 变 量 的 递增 操作 ， 也 没有 视 为 一 项 原子 操作 来 执行 。 


 C:\dds\pubs\current\ effective-debugging\src\omp-race\iinspector - Intel Inspector 


File View Help 


MA Ei >| > w oO 
HE tanned * Welcome r001ti3 x 100283 
a i a = Locate Deadlocks and Data Races abinspector XE 7016 
| iinspector 5 
a | è Target Analysis Type he Collection Log| 
-ET r00203 Problems | 
% [Type [Sources |Modules State 
Data race race.c race.exe fè New 2 item(s) 
Data race race.c:10 race.exe FY Not fixed 
Data race race.c:10 raceexe Pe New 2 item(s) 
Data race race.c race.exe Fe New 
Data race race.c:9 race.exe F Not fixed 


2 item(s) 
Data race race.c:9 = race.exe F Not fixed 


SE ANu 
__Face.c:10 [ace exe 2 l 
pragma omp parallel race.exe!maingomp$l - race.c =... 

For (i = Of i < 100000; i++) 7< 
countertt; 
printf ("counter=id\n", counter): 


race.c:10 maingomp$1 race.exe 
pragma omp parallel race.exelmain$Somp$l - race.c 
for (i = Or i < 100000; i++) | 
countertt; 
printf ("counter=td\n", counter); 
return ü; 


图 8.1 由 Intel Inspectot 工 具 所 发 现 的 数据 竞争 问题 
我 们 令 每 一 条 线程 都 拥有 各 上 自 版 本 的 变量 1， 并 且 以 原子 操作 的 方式 来 对 counter 进 行人 递 增 ， 这 样 就 可 以 修复 上 述 问题 了 。 
#include <stdio.h> 


static int 1, counter; 
#pragma omp threadprivate(1) 


int main() 
{ 
#pragma omp parallel 
for (1 = 0; 1 < 100000; i++) 
#pragma omp atomic 
counter++;3 
printfC"counter=%d\n", counter); 
return 0; 


把 程序 修改 好 之 后 ， 我 们 可 以 看 到 : 它 所 输出 的 值 ， 总 是 100000 的 某 个 整 效 倍 。 


$ ./fixed 
counter=800000 
$ ./fixed 
counter=800000 


把 修复 好 的 程序 放 在 Intel Inspector 下 面 运行 ， 是 不 会 产生 错误 消息 的 。 


本 书 的 第 60 条 说 过 ， 我 们 可 以 对 程序 的 内 存 转 储 文件 进行 分 析 ， 并 据 此 来 调试 死 氏 问 题 。 然 而 有 的 时 候 ， 死 锁 的 友 生 概率 
很 低 ， 令 我 们 几乎 无 法 抓 取 到 这 样 的 一 份 转 储 文件 。 比 如 ， 我 们 可 以 再 来 考虑 一 下 程序 清单 8.1。 如 果 把 对 sleep 遂 数 的 调用 操作 
删 挥 ， 那 么 程序 的 行为 束 会 变 得 完全 无 法 确定 。 笔 者 在 某 人 台 计 算 机 上 面 运 行 了 61266 次 之 后 ， 才 看 到 死 锁 现 销 : 


$ while : ; do deadlock ; echo OK ; done >output 
AC 

$ expr $(wc -1 <output) / 3 

61266 


如 果 这 种 状况 出 现在 一 个 庞大 而 复杂 的 应 用 程序 中 ， 那 么 调试 起 来 融会 特别 困难 。 好 企 有 一 些 动态 分 析 工 具 ， 能 够 对 加 锁 的 
顺序 进行 建 模 ， 并 据 此 来 探查 这 种 潜在 的 问题 。 如 果 某 算法 能 够 分 辨 出 这 种 加 锁 顺序 ， 究 葛 是 一 种 可 以 确定 的 顺序 (例如 ， 是 一 
种 通过 消息 传递 机 制 建 起 来 的 固定 顺序 ) ， 还 是 一 种 无 法 确定 的 顺序 (专业 术语 叫做 偏 序 ) ， 那 么 ， 即 便 程序 没有 友和 生 死 希 ,， 它 
也 照样 能 够 检测 出 潜在 的 死 锁 问 题 。 


Valgrind 工 具 包 中 的 Helgrind 工 具 ， 可 以 找 出 此 类 错误 。 它 能 够 对 以 POSIX Threads 原 语 所 写 的 C、C++ 及 Fortran 程 序 进 
行 检查 ， 进 而 找 出 其 中 的 并 发 错误 。 我 们 只 需 把 程序 传 给 valgrind 命 令 ， 并 开启 --tool=helgrind 选 项 : 


valgrind --tool=helgrind deadlock 


该 工具 会 输出 一 些 信息 ， 下 面 列 出 其 中 的 一 部 分 内 容 : 


Helgrind, a thread error detector 
Command: deadlock 


Thread #3: lock order "Ox600F40 before Ox600F80" violated 


Observed (incorrect) order is: acquisition of lock at Ox600F80 
at 0x4C30616: pthread_mutex_lock Chg_intercepts.c:593) 
by 0x400834: alice (deadlock.c:24) 
followed by a later acquisition of lock at Ox600F40 
at 0x4C30616: pthread_mutex_lock Chg_intercepts.c:593) 
by 0x40085B: alice (deadlock.c:25) 


Required order was established by acquisition of lock 


at Ox600F40 
at 0x4C30616: pthread_mutex_lock Chg_intercepts.c:593) 


by 0x40077B: bob (deadlock.c:14) 

followed by a later acquisition of lock at Ox600F80 
at 0x4C30616: pthread_mutex_lock (Chg_intercepts.c:593) 
by 0x4007A2: bob (deadlock.c:15) 


Lock at Ox600F40 was first observed 
at 0x4C30616: pthread_mutex_lock (Chg_intercepts.c:593) 
by 0x40077B: bob (deadlock.c:14) 
Address Ox600f40 is 0 bytes inside data symbol "m1" 
Lock at Ox600F80 was first observed 
at 0x4C30616: pthread_mutex_lock Chg_intercepts.c:593) 
by 0x4007A2: bob (deadlock.c:15) 
Address 0x600f80 is 0 bytes inside data symbol "m2" 
ERROR SUMMARY: 1 errors from 1 contexts (suppressed: 18 from 18) 
上 面 这 些 信息 的 意思 是 说 : Helgrind 工 具 首 先 发 现 ，bob 线 程 已 经 确定 了 一 种 “ 先 获 取 m1 再 获取 m2” 的 加 锁 顺 序 ， 但 是 稍 
后 它 又 看 到 alice 线 程 违背 这 个 顺序 ， 想 要 先 获 取 m2 再 获取 m1。 由 于 代码 中 没有 适当 的 锁定 或 同步 机 制 可 以 避免 这 种 顺序 错乱 
的 现象 ， 因 此 ，Helgrind 束 认为 该 程序 的 加 锁 顺 序 有 问题 ， 并 把 这 个 问题 报告 给 我 们 。 


am 
| 用 静态 分 析 工具 来 梳理 多 线程 代码 ， 以 寻找 有 可 能 发 生 的 同步 及 锁定 错误 。 


. 用 动态 分 析 工 具 来 运行 多 线程 代码 ， 以 寻找 对 API 的 误 用 现象 ， 以 及 潜在 的 死 锁 与 数据 竞争 问题 。 


BOR: 把 不 确定 的 因素 隔离 出 来 ， 或 将 其 移 除 


并 友 代 码 在 执行 的 过 程 中 缺乏 确定 性 ， 这 会 给 调试 工作 造成 困难 。 除 非 你 打算 使 用 一 些 极 其 特殊 的 手段 来 调试 (参见 第 61 
条 ) ， 人 否则 ， 对 这 样 的 代码 进行 调试 ， 融 相当 于 用 沙子 来 兰 楼 一 样 : 由 于 代码 的 行为 忌 是 不 停 地 变化 ， 因 此 你 无 法 可 靠 地 重 现 


bug、 无 法 通过 反复 的 尝试 来 详细 观察 Dug， 也 无 法 确定 bug 到 底 修复 好 了 没有 。 除 了 本 章 已 经 讲 过 的 方法 及 工具 ,还 有 两 种 办 
法 能 够 用 来 应 对 这 些 不 确定 的 因素 ， 一 种 办 法 是 把 这 些 行为 不 确定 的 代码 与 其 他 代码 隅 开 ， 还 有 一 种 办 法 是 对 这 些 代码 进行 适当 
的 实现 与 配置 ， 令 其 变 得 较为 确定 。 


隔离 法 是 把 代码 分 成 两 个 部 分 ， 从 而 帮助 你 解决 复杂 的 并 友 软 件 中 所 包含 的 环 手 问题 。 人 在 这 种 名 为 Humble Object 的 模式 

下 面 ， 我 们 把 市 有 不 确定 因素 的 并 友 代 码 ， 从 程序 的 其 他 多 辑 中 隔离 出 来 ， 也 丈 是 要 把 所 有 包含 不 确定 因素 的 并 友 代 码 ， 都 集中 
在 一 个 很 小 的 内 核 里 面 ， 同 时 把 那些 行为 能 够 确定 的 代码 ， 全 都 放 在 内 核 书 外， 从 而 令 我 们 可 以 采用 传统 的 工具 与 技术 ， 对 该 内 
核 进行 直接 而 可 靠 的 测试 与 调试 。 由 于 这 个 包含 不 确定 因素 的 内 核 很 小 ， 所 以 能 够 轻松 地 接受 正式 或 非 正式 的 走 查 (walk- 
through) 。 我 们 既 可 以 对 该 内 核 进行 单独 的 排查 ， 也 可 以 将 该 内 核 与 其 他 代码 合 起 来 排 坦 。 面 对 这 个 比较 小 的 内 核 ， 我 们 应 该 
能 够 看 出 其 中 有 没有 并 及 方面 的 问题 ， 甚 至 能够 给 出 一 个 并 上 友 问题 不 仔 在 的 论证 〈 也 融 是 证 明 内 核 中 的 代码 是 正确 的 ) 。 由 于 并 
发 代 码 的 数量 比较 少 ， 因 此 我 们 可 以 较 好 地 把 握 住 它 的 实质 ， 当 我 们 要 把 这 些 代 码 转 换 成 伪 代 码 ， 以 便 进 行 论证 时 ， 这 一 后 显得 
尤为 关键 。 此 外 ， 也 可 以 考虑 及 用 一 些 较为 可 靠 的 并 友 原 语 来 表达 这 个 内 核 的 合 义 ， 并 对 其 重 写 ， 以 消除 各 种 有 可 能 出 现 并 友 错 
误 的 地 方 (参见 第 66 条 ) 。 最 后 ， 把 这 两 部 分 代码 互相 分 离 ， 还 使 得 我 们 更 有 机 会 从 架构 上 面 深 入 地 改善 代码 。 


移 除法 是 用 行为 可 以 预测 的 实体 来 替换 那些 行为 不 太 确定 的 实体 。 比 如 ， 我 们 可 以 试 着 对 多 线程 的 组 件 进 行 配 置 ， 令 其 只 用 
单线 程 来 运行 。 (如 果 你 使 用 的 是 自己 可 以 控制 的 线程 池 ， 那 么 很 容易 就 能 做 到 这 一 点 ， 反 之 ， 如 果 你 使 用 的 是 第 三 方 组 件 ， 那 
就 比较 困难 了 。) 如 果 采 用 这 种 办 法 ， 那 么 在 Java 程 序 中 ， 你 可 以 把 创建 ForkJoinPool 时 所 用 的 parallelism 参 数 设 为 1， 而 在 使 
用 了 SQLite 的 C/C++ 程序 中 ， 则 可 以 通过 SQLITE CONFIG SINGLETHREAD 选 项 来 对 SQLite 进 行 配置 。 用 了 这 个 办 法 之 后 ， 你 
在 编写 测试 代码 时 ， 就 知道 程序 应 该 产生 什么 样 的 结果 了 ， 而 且 也 能 知道 程序 会 在 什么 样 的 情况 下 产生 这 样 的 结果 ， 于 是 ， 你 可 
以 按照 固定 的 步骤 来 反复 进行 调试 ， 从 而 简化 自己 的 测试 与 调试 工作 。 在 这 种 单线 程 的 环境 下 ， 你 可 以 把 程序 在 按 顺序 执行 的 过 
程 中 所 产生 的 那些 问题 调试 好 ， 尽 管 它 没有 办 法 帮 你 处 理 并 发 方面 的 bug， 但 你 至 少 能 够 知道 某 个 bug 是 不 是 由 并 发 问题 所 引发 
的 。 这 些 配 置 当然 只 应 该 在 调试 和 测试 的 时 候 启 用 ， 而 不 应 该 带 到 生产 环境 中 。 


另外 要 说 的 是 ， 如 果 某 个 对 象 是 以 异步 万 式 来 啊 应 请 求 的 ， 那 么 可 以 在 程序 内 部 针对 该 对 象 创建 测试 蔡 身 (test double) 

或 模拟 对 象 ， 令 其 等 待 啊 应 的 结果 ， 从 而 使 测试 代码 能 够 以 同步 的 方式 来 获得 这 个 结果 。 比 如 ， 如 果 我 们 在 执行 下 面 这 个 shell 

肖 数 之 前 ， 率 先 设置 了 TESTING 变 量 ， 那 么 该 函数 就 会 一 直 等 着 文件 下 载 完 毕 ， 然 后 才 继 续 往 下 执行 ， 而 不 会 像 平 党 那样， 及 
异步 的 万 式 来 获取 这 份 文件 。 


fetch_fileQ 
{ 


local url="$1" 
local filename="$2" 


wget -q -O $filename $url & 

if [ "$TESTING" ] ; then 
wait 

fi 


此 外 ， 如 果 程 序 会 局 动 多 条 线程 ， 并 允许 这 些 线程 以 异步 的 方式 来 执行 操作 ， 那 么 在 测试 这 种 程序 时 ， 你 可 以 创建 一 份 配置 
万 案 ， 使 得 该 程序 每 次 只 执行 一 条 线程 ， 并 且 要 等 该 线程 执行 完毕 之 后 ， 骨 局 动 下 一 条 线程 。 这 样 的 行为 ， 最 好 是 在 设计 程序 的 
时 候 就 提前 规划 好 。 在 这 万 面 投入 一 些 精 力 是 值得 的 ， 因 为 这 样 做 可 以 创建 出 更 容易 测试 和 调试 的 软件 ， 从 而 减少 程序 将 来 友 生 
错误 的 概率 ， 并 且 使 得 我 们 在 修复 bug 的 时 候 ， 能 够 有 更 多 的 线 率 可 供 探查 。 


TAR 


: 把 并 发 代码 与 其 他 代码 隔 开 ， 使 我 们 能 够 分 别针 对 这 两 个 方面 来 运用 最 为 合适 的 调试 工具 与 调试 技术 。 


-创建 一 份 专 供 测试 与 调试 所 用 的 配置 方案 ， 并 通过 模拟 对 象 等 技术 ， 把 代码 的 行为 固定 下 来 ， 从 而 令 程序 在 每 次 执行 的 时 
候 ， 都 能 够 展示 出 同样 的 效果 。 


第 64 条 : 检查 和 贷 源 争 用 情况 ， 以 解决 与 可 伸缩 性 有 天 的 问题 


如 果 系 统 的 整体 性 能 〈 通 单 以 延迟 时 间或 吞吐 量 来 衡量 ) ， 没 有 能 够 随 着 当前 可 用 的 资源 (如 CPU 的 核心 数量 ) 而 变化 ， 
那 你 融 得 看 看 其 中 有 没有 友 生 资源 争 用 的 问题 。 比 如 ， 系 统 中 有 没有 那 种 可 以 改写 为 并 上 友 代 码 的 冰 数 、 有 没有 涉及 多 个 资源 的 加 
锁 问 题 ( 详 见 下 文 ) ， 以 及 有 没有 内 存 缓存 方面 的 问题 (参见 第 65 条 ) 等 。 


现在 来 看 程序 清单 8.5 中 的 这 段 代 码 。 该 程序 及 用 指定 数量 的 线程 来 创建 一 个 map， 使 得 该 map 包 含 特定 数量 的 公 钥 - 私 钥 
对 。 


程序 清单 8.5 及 用 多 条 线程 来 生成 含有 密 钥 对 的 map 


Import java.security.*; 
Import java.util.concurrent.*; 
Import java.util.HashMap; 


public class LockContention { 
static public void main(String[] args) { 
int nKeys = Integer.parseInt(args[0]); 
int nThreads = Integer.parseInt(args[1]); 
HashMap<PublicKey, PrivateKey> map = 
new HashMap<PublicKey, 
PrivateKey>Q() ; 


Runnable task = () -> { 
try i 
synchronized(map) { 

KeyPairGenerator keyGen = KeyPairGenerator 
.getInstance("DSA", SUN ) ; 
SecureRandom random = SecureRandom 

.getInstanceStrong() ; 
keyGen.initialize(2048, random); 
KeyPair pair = keyGen.generateKeyPair() ; 
map.put(Cpair.getPublic(), pair.getPrivate()) ; 
} 
} catch (Exception e) { 
System.out.println("Generation failed: ”+ e); 
} 
$5 


ExecutorService executor = Executors 
.newFixedThreadPoo! CnThreads) ; 

for (int 1 = 0; 1 < nKeys; 1++) 
executor.submit(task) ; 


try { 
executor .shutdown(); 
executor.awaitTermination(5, TimeUnit.SECONDS) ; 


} catch (CInterruptedException e) { 
System.err.printInC’Interrupted await: 


+ e); 


|; 


在 把 密 钥 对 的 数量 设 为 1000 的 前 提 下 ， 用 4 条 续 程 来 运行 该 程序 ， 所 伦 的 时 间 与 用 1 条 线程 来 运行 的 时 候 差 不 多 。 


$ time java LockContention 1000 4 
real Om11.106s 


$ time java LockContention 1000 1 
real Om11.075s 


在 本 例 中 ， 很 容易 就 能 看 出 系统 性 能 无 法 随 着 线程 数量 而 变化 的 原因 ， 但 如 果 你 要 调试 的 是 一 个 更 为 庞大 的 系统 ， 那 么 这 样 
的 问题 融 不 大 容易 看 出 来 了 。 对 于 此 类 问题 来 襄 ， 我 们 可 以 采用 profiling 工 具 来 寻找 引 帮 资源 和 争 用 的 原因 ， 也 融 是 把 多 条 线程 因 
为 争 着 获取 同一 份 资源 而 陷入 阻塞 的 情况 找 出 来 。 在 这 些 工 具 中 ， 有 两 个 工具 颇 为 典型 ， 一 个 是 Oracle 的 Java Flight 
Recorder， 另 一 个 是 Intel 的 VTune Amplifier。 我 们 以 前 者 为 例 来 演示 这 种 工具 的 用 法 。 


首先 ， 把 程序 放 在 profiler 下 面 运行 ， 以 便 将 分 析 性 能 所 需 的 数据 收集 起 来 : 


$ Java -XX:+UnlockCommercialFeatures -XX:+FlightRecorder \ 

> -XX:StartFl ightRecording=name=test , dumponexit=true, \ 

> filename=perf.jfr LockContention 1000 4 

Started recording 1. No limit (Cduration/maxsize/maxage) in use. 


你 也 可 以 把 profiler 连 接 到 正在 运行 程序 上 面 。 对 于 本 例 所 提 到 的 Java 程 序 来 蜗 ， 可 以 通过 Oracle 的 Java Mission Control 
图 形 界面 来 进行 连接 。 

下 一 步 是 对 收集 到 的 数据 进行 分 析 ， 一 般 来 说 ， 我 们 通过 profiler 的 图 形 界面 来 做 这 种 分 析 。 在 图 8.2 中 ， 左 上 方 的 那 幅 小 
和 到， 演示 的 是 各 条 线程 的 执行 时 间 ， 由 于 每 条 线程 所 获得 的 时 间 并 不 均等 ， 因 此 这 讽 明 程序 中 可 能 有 问题 。 表 来 看 右上 方 的 小 
到 ， 该 图 演示 了 线程 的 阻塞 情况 ， 由 此 可 知 ， 线 程 受 到 阻塞 的 时 间 是 很 长 的 。 单 击 阻塞 情 况 最 为 严重 的 那 条 线程 ， 并 查看 其 栈 跟 
踪 信 息 ， 就 可 以 友 现 : 之 所 以 会 出 现 阻塞 现象 ， 是 因为 各 条 线程 都 在 争 着 获取 HashMap 对 象 的 锁定 权 。 左 下 方 和 右 下 方 的 两 张 
小 图 ， 再 次 印证 了 这 一 判断 。 从 左下 方 的 图 中 ， 可 以 看 出 程序 友 生 延迟 的 原因 ， 其 中 有 多 达 12.9 秒 的 延迟 ， 都 是 线程 受到 阻塞 所 
引发 的 ; 而 右 下 方 的 图 ， 则 说 明了 加 锁 情 况 : 程序 在 执行 过 程 中 所 产生 的 那 12.9 秒 延迟 ， 全 都 花 在 了 对 HashMap 的 锁定 上 面 。 


要 想 解 决 这 个 与 可 伸缩 性 有 关 的 问题 ， 我 们 可 以 把 HashMap 改 为 Concurrent-HashMap， 以 消除 (过 度 的 ) 同步 行为 ， 这 
样 做 可 以 使 4 线程 的 执行 速度 变 为 单线 程 的 3.2 倍 。 


$ time java NoContention 1000 4 
real Om3.503s 


am 


-用 ptofiling 工 具 来 探查 引发 竞争 现象 的 原因 ， 以 解决 多 线程 代码 中 与 可 伸缩 性 有 关 的 问题 。 
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图 8.2 用 Java Flight Recotdet 工 具 对 竞争 现象 进行 分 析 


第 65 条 : 用 性 能 计数 器 寻找 伪 共 享 问题 


下 面 是 一 段 用 OpenMP 库 所 写 的 C 语 言 代码 ， 它 会 对 values 数 组 中 的 元 素 进 行 8 次 求 和 ， 每 次 求 和 时 ， 都 会 将 元 素 的 值 与 2 的 


整 效 次 贿 相 除 ， 后 一 次 求 和 时 所 用 的 除数 ， 是 前 一 次 的 2 倍 。 


N N 
i l 
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i=0 
#include <omp.h> 


#define N 100000000 
#define NTHREADS 8 
int values[N]; 
int 
main(int argc, char *argv[]) 
{ 
int tid; 
Static int sum[NTHREADS] ; 


#ifdef _OPENMP 
omp_set_num_threads(NTHREADS) ; 
#pragma omp parallel private(tid) 
{ 
tid = omp_get_thread_num() ; 
#else 
for (tid = 0; tid < NTHREADS; tid++) { 
#endif 
for (int 1 = 0; 1 < N; i++) 
sum[ tid] += values[i] >> tid; 


如 果 局 用 OpenMP 库 的 多 线程 功能 ， 并 以 8 条 线程 来 运行 该 程序 ， 那 么 它 在 8 核 的 计算 机 上 面 ， 需 要 用 2603 毫 秒 才 能 执行 


(s 
Jūo 


$ time ./sum-mp 
real Om2.603s 
user Om19.076s 
SYS Um0 .072s 


如 果 在 不 局 用 OpenMP 的 情况 下 编译 同一 份 代 码 ， 那 么 它 将 按照 先后 顺序 完成 8 次 求 和 ， 而 这 样 的 单线 程 程序 ， 在 同样 一 全 
计算 机 上 ， 只 需要 2249 毫 秒 就 可 以 执行 完 。 


$ time ./sum-seq 
real Om2.249s 
user Om2.208s 
sys Om0.040s 


由 此 可 见 : 用 了 多 线程 之 后 ， 程 序 的 效率 反倒 下 降 了 ， 这 是 个 很 奇怪 的 事情 。 用 8 条 线程 来 执行 相同 的 任务 ， 应 该 比 用 1 条 
线程 快 得 多 才 对 。 


这 种 奇怪 的 现象 是 由 伪 共 享 (false sharing) 问题 造成 的 。 由 于 范例 代码 并 没有 使 用 同步 原 语 ， 因 此 该 问题 和 同步 原 语 无 
它 是 由 另外 一 种 同步 机 制 所 引 友 的 ， 这 种 机 制 残 是 CPU 核心 的 同步 协议 ， 也 称 为 缓存 一 致 性 协议 ， 访 协议 用 来 保证 各 续 程 


忌 是 能 够 看 到 相互 一 怪 的 内 存 数 据 。 多 个 CPU 核 心 在 共享 内 存 的 时 候 ， 每 个 核心 都 有 可 能 把 目 己 频繁 使 用 的 那 部 分 内 存 内 容 ， 
复制 到 自身 的 局 部 缓存 中 。 如 果 某 个 核心 要 同 局 部 缓存 中 的 某 个 位 置 写 入 数据 ， 而 与 该 位 置 相 对 应 的 那个 内 存 地 址 ， 同 时 也 缓存 
到 了 另外 一 个 核心 的 局 部 缓存 中 ， 并 且 那 个 核心 又 想 要 读 取 该 地 址 中 的 数据 ， 那 么 CPU 融会 触 皮 一 套 复 杂 的 机 制 ， 以 确保 这 两 
个 核心 都 能 在 其 各 自 的 绥 存 中 看 到 相同 的 内 容 一 一 这 就 是 同步 协议 所 要 解决 的 问题 。 而 刚才 那个 范例 程序 之 所 以 运行 得 较为 绥 
慢 ， 正 是 由 于 缓存 同步 协议 想 要 使 所 有 的 线程 都 能 够 看 到 相同 的 Sum 数 组。 一 般 情况 下 ， 每 条 线程 都 应 该 各 自 操作 不 同 的 内 存 区 
域 ， 而 不 应 该 去 干涉 其 他 线程 所 操作 的 那 块 区 域 ， 然 而 在 本 例 中 ， 由 于 sum 数 组 很 小 ， 因 此 每 一 个 CPU 核 心 都 有 可 能 把 该 数组 
放 到 相同 的 缓 仔 区 块 中 ， 于 是 融 僻 成 了 sum 数 组 在 多 个 核心 乙 间 共享 的 局 面 。 即 便 每 条 绪 程 都 只 操作 该 数 组 中 的 一 个 元 素 ， 它 们 
也 依然 共享 着 整个 sum 数 组， 这 束 是 伪 共 享 一 词 的 含义 所 在 。 每 个 CPU 核 心 在 对 sum 数 组 中 的 某 个 元 素 进行 操作 时 ， 都 要 把 组 
存 中 的 整个 数组 推送 到 (速度 相对 较 慢 ) 主 内 存 中 ， 使 得 其 他 CPU 核 心 也 能 够 看 到 同样 一 份 数组 ， 而 在 读 取 该 数组 中 某 个 元 素 
的 值 时 ， 也 必须 从 主 内 存 里 面 获取 。 (缓存 同步 机 制 有 多 种 实现 方式 ， 但 是 这 些 方式 都 会 产生 明显 的 开销 。) 


要 想 有 效 地 调试 这 种 伪 共 享 问题 ， 我 们 可 以 探查 CPU 的 性 能 计数 器 。 这 些 计 数 器 会 把 与 CPU 性 能 有 关 的 事件 记录 下 来 ， 例 
如 ， 执 行 的 指令 数量 以 及 缓存 未 命中 的 次 数 。 这 样 的 工具 包括 Visual Studio 的 Concurrency Visualizer 扩 展 、Intel 的 VTune 
Performance Analyzer 以 及 Linux 的 perf 命 令 等 ， 它 们 都 可 以 用 来 寻找 程序 在 运行 时 所 遭遇 的 伪 共 享 (以 及 其 他 一 些 ) 问题 ， 并 
帮助 你 确定 其 根源 。 


下 面 演示 怎样 通过 perf 命 令 来 统计 刚才 那个 程序 的 未 级 缓存 (last-level cache， 简 称 LLC) 未 命中 次 数 (该 次 数 在 perf 命 令 
中 ， 以 LLC-loads 表 示 ) 。 如 果 程 序 对 缓存 一 致 性 协议 的 触 上 友 次 数 比较 多 ， 那 么 LLC-loads 的 读数 就 会 随 乙 增 大 (对 于 本 例 来 
说 ， 由 于 友 生 了 伪 共 享 问题 ， 因 此 这 个 数字 显得 特别 大 ) 。 


$ perf stat --event=LLC-loads ./sum-seq 
Performance counter stats for './sum-seq': 
17,830 LLC-loads 
2.223350547 seconds time elapsed 
$ perf stat -e LLC-loads ./sum-mp 
Performance counter stats for './sum-mp': 
49,264,883 LLC-loads 
2.547188760 seconds time elapsed 


接 下 来 ， 我 们 要 用 perf 命 令 记 录 相 关 的 事件 ， 以 便 把 受到 伪 共 享 问题 所 影响 的 那些 代码 找 出 来 。 


perf record --event=LLC-loads ./sum-mp 


你 也 可 以 把 perf 连 接 到 已 经 运行 的 程序 上 面 。 


最 后 ， 我 们 用 perf annotate 命 令 来 查看 刚才 记录 到 的 结果 ， 以 寻找 与 缓存 未 命中 现象 关系 最 大 的 代码 。perf 工 具 提供 了 一 
套图 形 界面 ， 适 合用 来 分 析 大 型 的 程序 ， 然 而 对 于 本 例 来 说 ， 文 本 形式 的 输出 信息 ， 就 足以 襄 明 问题 了 。 我 们 可 以 看 到 ， 在 所 有 
的 末 级 缓存 加 载 (last-level cache loads) 事件 中 ， 有 百 分 之 54.90 (=25.03+14.23+14.83) 的 事件 ， 都 是 由 那 行 对 sum 数 组 
进行 写 入 的 代码 所 引发 的 。 


Percent | Source code & Disassembly of sum-mp for LLC-loads 


Disassembly of section .text: 


{ 

tid = omp_get_thread_num(); 
0:00 3 4006eb: callq 400560 <omp_get_thread_num@p1t> 
0.00 : 4006f0: mov %eax,-Ox8(%rbp) 

: #else 

for (tid = 0; tid < NTHREADS; tid++) { 
#endif 

: for Cint i = 0; i < N; i++) 
0.00 : 4006f3: mov] $0x0,-0x4(%rbp) 
Ql = 4006fa: cmpl $0x5f5e0ff,-0x4(%rbp) 
2:42 3 400701: jg 400738 <main._omp_fn.0+0x59> 

sum[tid] += values[1] >> tid; 
0.36 % 400703: mov -Ox8(%rbp) ,%eax 
0.79 * 400706: cltq 
0.22 § 400708: mov Ox600bc0(,%rax,4) ,%edx 
fF 40070Ff: mov -Ox4(%rbp) ,%eax 
0:55 2 400712: cltq 
Oust 3 400714: mov Ox600c00(,%rax,4) ,%es1 
Zeek. : 40071b: mov -Ox8(%rbp) ,%eax 
2.00 : 40071le: mov %eax,%ecx 
0.06 : 400720: sar %cl,%es1 
2.66: : 400722: mov %esi1,%eax 
0.06 : 400724: add %eax,%edx 
0:83. : 400726: mov -Ox8(%rbp) ,%eax 
14.23 : 400729: cltq 
14.83 : 40072b: mov %edx,0x600bc0(,%rax, 4) 


根据 上 述 结 论 ， 我 们 可 以 对 程序 做 出 修改 ， 用 基于 配 的 变量 来 保 人 存在 数组 求 和 过 程 中 所 得 到 的 累加 值 ， 等 到 求 和 完毕 之 后 ， 
再 把 该 值 写 入 Sum 数组。 


#include <omp.h> 


#define N 100000000 
#define NTHREADS 8 
int values([N]; 
tnt 
main(int argc, char *argv[]) 
{ 
int tid; 
Static int sum[NTHREADS]; 


omp_set_num_threads(NTHREADS) ; 
#pragma omp parallel private(tid) 


{ 
int local_sum = 0; 
tid = omp_get_thread_num() ; 
for Cint 1 = 0; 1 < N; 1++) 
local_sum += values[1] >> tid; 
sum[ tid] = local_sum; 
} 


l 
修改 之 后 的 并 行程 序 ， 其 运行 速度 是 单线 程 版 本 的 4 倍 。 


$ time sum-mp-noshare 
real Om0.553s 
user Om4.276s 
Sys Om0.072s 


BR 


| 用 profiling 工 具 来 监控 性 能 计数 器 ， 以 寻找 并 解决 程序 中 的 伪 共 享 问题 。 


第 66 条 : 考虑 用 更 为 高 级 的 抽象 机 制 来 重 写 代 码 


通过 本 章 其 他 几 条 所 讲 的 内 容 ， 大 家 可 以 看 到 ， 底 层 的 多 线程 代码 是 很 难 操控 的 。 除 了 竞争 条 件 、 死 锁 、 活 锁 (livelock, 
如 果 代码 处 于 这 种 状态 ， 那 么 它 只 会 空转 ， 无 法 完成 任何 工作 ) 以 及 性 能 不 佳 等 常见 的 问题 ， 还 会 涌现 许多 的 bug。 如 果 你 所 遭 
遇 的 bug 看 上 去 无 法 解决 ， 那 么 有 时 不 妨 考 虑 把 现 有 的 代码 丢 挥 (或 者 说 ， 人 至 少 把 其 中 的 并 友 组 件 丢 挥 ) ， 改 用 更 为 高 级 的 解决 
万 案 来 做 。 〈 还 有 一 种 办 法 ， 是 采用 另外 一 种 编程 语言 来 实现 ， 参 见 第 47 条 。) 从 架构 的 角度 来 看 ， 有 很 多 种 高 级 的 万 案 ， 都 
可 以 令 程序 稳定 而 高 效 地 运行 在 多 个 CPU 核 心 上 面 ， 其 中 包括 使 用 消息 忌 线 或 工作 队列 等 。 然 而 这 些 方 案 并 不 在 本 书 的 讨论 学 
围 之 内 ， 我 们 这 里 想 要 讨论 的 ， 是 一 些 代码 技巧 ， 这 些 技巧 或 许可 以 帮 你 绕 开 并 行 万 面 的 一 些 bug， 它 们 会 请 其 他 软件 来 处 理 与 
多 核 CPU 有 天 的 事宜 ， 同 时 又 令 目 身 可 以 享受 到 由 多 核 所 市 来 的 好 处 。 与 其 他 一 些 奇妙 的 技巧 一 样 ， 这 些 拉 15 也 不 能 保证 绝对 
有 效 ， 然 而 一 旦 见效 ， 其 结果 束 会 非常 显著。 有 时 我 们 只 需要 花费 少量 的 精力 (此 外 可 能 还 得 花 一 些 钱 ) ， 融 可 以 获得 很 好 的 提 


速效 果 。 


从 最 为 宏观 的 层面 来 看 ， 如 果 你 能 找到 现成 的 中 间 件 来 完成 并 友 万 面 的 任务 ， 那 么 很 容易 束 可 以 将 其 分 配 到 多 个 CPU 核 心 
上 面 。 对 于 那 种 需要 处 理 Web 请 求 或 SQL 语 句 的 应 用 程序 来 说 ， 情 况 正 是 如 此 。Web 应 用 程序 服务 器 会 把 工作 量 分 割 到 多 条 线 
程 或 进程 中 ， 进 而 充分 地 利用 CPU 的 各 个 核心 。 你 只 需 把 目 己 的 应 用 程序 ， 放 在 JavaEE 或 Node.js 这 样 的 服务 器 框 染 里 面 来 运行 
束 可 以 了 。 对 于 需要 处 理 SQL 语 句 的 应 用 程序 来 况 ， 你 可 以 把 这 些 语句 转交 给 一 套 成 熟 的 天 系 型 数据 库 管 理 系 统 ， 那 些 系统 的 优 
化 引擎 ， 会 对 SQL 查 询 进 行 优化 ， 并 设法 将 查询 工作 分 配 到 多 个 CPU 核 心 上 面 ， 比 如 ， 它 可 能 会 把 每 一 条 对 表格 进行 过 渡 的 
WHERE 子 句 ， 都 单独 放 到 某 个 核心 上 面 去 执行 。 此 时 你 的 主要 职责 ， 只 不 过 是 把 任务 尽量 交 给 数据 库 系 统 来 完成 。 


还 有 一 种 安 观 的 方式 ， 也 可 以 将 工作 分 配 到 多 个 CPU 核心 上 面 ， 那 残 是 把 工作 交 给 操作 系统 ， 由 操作 系统 来 将 其 分 割 到 多 
个 独立 的 进程 中 。 有 些 应 用 程序 可 能 是 以 管道 加 过 滤器 的 架构 来 编写 的 ， 其 中 一 条 进程 产生 输出 信息 ， 另 一 条 进程 消耗 这 些 信息 
(参见 第 22 条 ) 。 这 种 官 道 式 的 写法 ， 是 随 着 Unix shell 而 得 以 普及 的 ， 你 可 以 用 这 种 写法 轻松 地 拼接 一 系列 进程 ， 而 无 需 担 心 
这 些 进程 究竟 怎样 与 多 个 CPU 内 核对 应 起 来 ， 因 为 目前 几 是 比较 好 的 操作 系统 ， 都 会 目 动 实现 这 一 功能 。 比 如 ， 如 果 软 件 需要 
把 数据 文件 的 压缩 格式 由 bzip2 转 换 成 gzip， 那 么 运行 下 面 这 条 命令 管道 就 可 以 了 : 


bzip2 -dc data.bz2 | gzip -c >data.gz 


这 条 管道 会 以 并 上 发 的 方式 来 执行 bzip2 解 压 程序 及 gzip 压 缩 程序 。 通 过 下 面 的 测评 结果 ， 我 们 可 以 看 到 ， 对 于 一 份 70MB 的 
压缩 文件 来 说 ， 按 照 先后 顺序 执行 这 两 个 命令 ， 要 花费 41 秒 ， 但 如 果 通 过 管道 来 执行 ， 那 么 只 需 27 秒 就 可 以 完成 。 


$ time { bzip2 -d data.bz2 ; gzip data ; } 
real 0m41.367s 

user 0m40.325s 

Sys Om0.919s 

$ time bzip2 -dc <data.bz2 | gzip -c >data.gz 
real Om2/7.444s 

user Qm40.886s 

Sys Om1.278s 


如 果 你 要 调试 的 程序 ， 是 按照 从 先 到 后 的 顺序 来 处 理 多 个 数据 块 的 (例如 ， 多 个 文件 、 多 行文 本 或 多 条 记录 ) ， 那 么 可 以 通 
过 GNU parallel 工 具 ， 将 这 些 处 理 任务 轻松 地 划分 到 名 个 CPU 核 心 上 面 。 你 只 需要 把 等 处 理 的 数据 块 友 给 这 个 工具 束 可 以 了 ， 
尼 会 自动 运行 很 多 任务 ， 以 求 充 分 利用 这 些 CPU 核 心 。 比 如 ， 如 果 你 的 软件 需要 根据 照片 生成 缩 略 图 ， 那 么 可 以 像 下 面 这 样 ， 
通过 parallel 命 令 来 调用 JPEG 解 压缩 及 压缩 程序 : 


ls *.jpg | parallel 'djpeg -scale 1/16 {} | cjpeg >thumb/{}' 


通过 下 面 这 些 评测 数据 ， 我 们 可 以 看 出 ， 这 种 做 法 能 够 令 程序 的 运行 时 间 减 半 。 


$ time Is *.jpeg | 

> xargs -I '{}' sh -c ‘djpeg -scale 1/16 {} | cjpeg >thumb/{}' 
real Om10.493s 

user OQOm6.428s 

SYS Om4.360s 


$ time Is *.[Ij]* | 

> parallel 'djpeg -scale 1/16 {} | cjpeg >thumb/{}' 
real Om4.149s 

user Om8&.384s 

SYS Om6.696s 


如 果 你 要 调试 的 代码 ， 其 职责 是 接受 一 份 庞大 的 输入 文件 ， 并 将 这 项 大 任务 划分 成 多 项 小 任务 ， 那 么 Parallel 工具 可 以 帮 有 你 
进行 这 种 划分 。 〈 笔 者 曾经 试 着 用 低级 的 线程 操作 或 异步 /O 实 现 过 这 样 的 功能 ， 实 现 起 来 很 麻烦 ， 而 且 很 难 做 好 。 ) 


并 不 是 所 有 的 处 理 任 务 都 可 以 像 刚 才 那 样 ， 建 模 成 一 系列 彼此 无 关 的 步骤 ， 并 通过 parallel 命 令 ， 用 管道 或 独立 进程 的 方式 
来 加 以 运行 ， 因 为 在 很 多 情况 下 ， 任 务 的 各 个 步骤 乙 间 ， 其 实 是 有 依赖 天 系 的 。 面 对 这 样 的 任务 ， 我 们 可 以 (粗略 地 ) 把 其 中 某 
些 步骤 的 先决 条 件 ， 以 及 文件 之 间 的 依赖 关系 ， 描 述 到 Makefile 中 ， 然 后 交 给 Unix 的 make 工 具 来 处 理 。 版 本 较 新 的 make 工 具 
可 以 指定 -j 参 数 ， 以 便 人 在 满足 依赖 天 系 的 前 提 下 ， 尽 可 能 多 地 把 大 任务 拆 分 成 多 个 小 任务 (job) ， 并 加 以 平行 地 执行 。 这 种 做 
法 ， 通 常 是 用 来 在 编译 系统 的 时 候 缩短 编译 时 间 的 ， 然 而 你 也 可 以 用 它 来 做 别 的 事情 ， 例 如 ， 对 电影 进行 渲染 ， 或 是 对 庞大 的 数 
据 进 行 处 理 等 。 如 果 在 一 台 8 核 的 计算 机 上 面 编 译 4.5 版 的 Linux 内 核 ， 那 么 启用 了 并 发 功能 的 make 命 令 (通过 -j 8 参数 来 开 
ja) ， 可 以 把 编译 所 耗 的 时 间 ， 从 14 分 钟 缩短 为 3 分 钟 。 


$ time make >/dev/null 
real 14m18.053s 

user 11m35.152s 

SYS 1m41.608s 


$ time make -j 8 >/dev/null 
real 3m12.827s 
user 20m32.272s 
SYS 2m35.600s 


parallel 命 令 会 把 指定 的 流程 分 别 运 用 到 各 个 数据 块 上 面 ， 以 实现 并 行 ， 你 也 可 以 通过 map-reduce (映射 -归纳 、 映 射 -化 
简 ) 及 filter-reduce (过 滤 - 归 纳 、 过 滤 - 化 简 ) 技术 来 把 这 个 思路 运用 在 自己 的 应 用 程序 里 面 。 这 些 技术 可 以 通过 某 个 函数 来 对 
vector 等 容器 中 的 元 素 进行 映射 (也 就 是 修改 每 一 个 元 素 ) 或 过 滤 (也 就 是 选 出 其 中 的 某 些 元 素 ) ， 然 后 通过 另外 一 个 函数 ， 把 
映射 或 过 滤 的 结果 ， 归 纳 成 单独 的 一 项 内 容 。 如 果 你 打算 运用 的 函数 是 较为 耗 时 的 ， 那 么 这 种 操作 就 有 助 于 提升 程序 的 效率 ， 因 
为 它 可 以 把 应 用 程序 级 别 的 线程 ， 分 割 到 多 个 CPU 核心 中 去 执行 。 比 如 ， 可 以 用 java.util 包 的 Collection.parallelstream 方 法 或 
QtConcurrent C++ 库 的 相关 水 数 来 执行 这 样 的 操作 。 你 只 需要 使 用 适当 的 容器 ， 并 指定 与 对 应 API 相 兼容 的 映射 遂 数 、 过 滤 函 
数 或 归纳 函数 即 可 。 如 果 要 并 行 处 理 的 任务 比较 大 ， 而 且 是 粗 粒度 的 任务 ， 那 么 可 以 将 其 完全 交 给 Apache Hadoop 等 分 布 式 的 
处 理 框 架 来 做 。 


有 很 多 较为 芝 见 且 工 作 量 较为 庞大 的 任务 ， 都 可 以 通过 相应 的 程序 库 来 实现 并 行 ， 这 些 程序 库 经 过 了 手动 的 调节 ， 可 以 充分 
上 友 挥 出 多 核 CPU 的 能 力 。AMD 及 Intel 等 处 理 器 广 商 ， 都 提供 有 这 样 的 程序 库 ， 可 以 用 来 对 音频 与 视频 进行 编码 和 解码 ， 可 以 用 
来 处 理 图 像 、 语 音 以 及 通用 的 信号 ， 还 可 以 用 来 进行 加 密 、 压 缩 及 演 染 。 此 外 ， 也 很 多 更 为 专门 的 程序 库 可 供 选用 。 比 如 ， 实 现 


了 BLAS (Basic Linear Algebra Subprograms， 基 础 线性 代数 程序 集 ) 标准 的 ATLAS (Automatically Tuned Linear Algebra 
Software) 库 ， 融 属于 此 类 。 它 会 在 构建 的 时 候 ， 根 据 硬件 所 具备 的 能 力 来 动态 地 调节 程序 库 中 的 组 件 ， 令 二 者 相互 匹配 。 另 
外 一 个 例子 是 NAG Numerical Components Library for SMP and multicore， 它 实现 了 平行 化 的 数值 计算 与 统计 算法 。 如 果 
尔 能 把 问题 用 和 矩阵 操作 的 形式 表达 出 来 (其实 有 很 多 问题 都 可 以 这 样 表达 ) ， 那 么 或 许 融 可 以 把 原来 那些 有 bug 的 代码 删 探 ， 并 
通过 调用 该 程序 库 来 解决 问题 。 


适当 地 采用 这 种 程序 库 来 进行 平行 运算 ， 可 以 提升 程序 的 性 能 ， 而 且 能 够 避 开 编写 并 发 程序 时 所 遇 到 的 那些 难题 。 下 面 举 一 
个 例子 ， 以 演示 这 种 程序 库 所 起 到 的 效果 。 这 是 一 个 Ri 语言 的 程序 ， 用 来 计算 10000x 10000 和 矩阵 的 逆 和 矩阵 。 


#!/usr/bin/env Rscript 


# Matrix size 
n <- 10000 


# Create a square matrix of random numbers 
m <- replicate(n, rnorm(n) ) 


# Calculate the matrix inverse 
r <- solve(m) 


如 果 用 针对 单 核 计算 机 所 构建 的 某 个 ATLAS 程 序 库 来 运行 该 程序 ， 那 么 大 概 需要 3 分 钟 的 时 间 。 


$ time ./solve.R 
real 3m10.285s 
user 3m8.4/76s 
sys Om1. 800s 


如 果 改 用 另外 一 个 针对 多 核 计 算 机 所 优化 的 BLAS 库 来 运行 这 个 R 程 序 ， 那 么 只 需要 1 分 钟 左右 束 可 以 执行 完毕 。 


$ time ./solve.R 
real i1m1.995s 
user 3m11.8/76s 
sys Om3.256s 


另外 一 种 办 法 ， 是 使 用 那 种 容易 发 挥 多 核 优 势 的 编程 语言 或 编程 风格 。 在 这 一 点 上 ， 消 数 式 编程 的 好 处 较为 明显 ， 因 为 在 以 
这 种 风格 所 写 的 程序 中 ， 程 序 块 之 间 是 不 会 互相 干扰 的 。 因 此 ， 如 果 你 开发 的 是 Java 程 序 ， 那 就 从 lambda 表 达 式 和 stream 入 
F; 如 果 你 开 友 的 是 那 种 必须 与 现 有 API 相 结合 的 程序 ， 那 就 党 试 一 种 与 对 应 的 框架 有 天 的 函数 式 编程 语言 ， 例 如 ， 适 用 于 
JVM、.NET 和 JavaScript 的 Clojure 语 言 ， 适 用 于 JVM 的 Scala 语 言 ， 以 及 适用 于 .NET 的 F# 语 言 等 。 此 外 ， 还 有 一 类 更 为 彻底 的 
做 法 ， 例 如 ， 使 用 像 Haskell 这 样 的 纯 消 数 式 语言 、 使 用 像 R 这 样 专门 给 特定 领域 所 设计 的 语言 ， 或 是 使 用 像 Erlang 这 样 从 设计 上 
明确 支持 并 发 的 语言 。 如 果 你 要 从 头 开始 设计 一 套数 据 处 理 量 很 大 的 系统 ， 而 且 这 套 系 统 不 太 需 要 进行 API 方 面 的 交互 ， 那 么 此 
类 做 法 就 是 可 行 的 。 如 果 你 要 从 头 开 始 为 一 款 有 lbug 的 软件 重新 做 架构 ， 那 么 除了 上 述 办 法 ， 还 有 一 种 思路 也 可 以 友 挥 多 核 的 优 
势 ， 那 束 是 及 用 Vert.x 这 样 的 反应 式 事 件 驱 动 框架 。 


现在 我 们 看 看 ' 夺 样 通过 平行 地 调用 函数 来 提升 程序 的 性 能 。 下 面 这 段 代 码 会 对 长 度 为 5 的 每 一 个 英文 单词 进行 检查 ， 看 看 该 
单词 中 的 字符 能 否 以 另外 一 种 排列 方式 构成 其 他 的 单词 ， 然 后 将 符合 此 条 件 的 全 部 单词 族人 在 一 份 询 表 中 (比如 ，“trust” 一 词 
就 符合 该 条 件 ， 因 为 我 们 可 以 对 该 单词 中 的 5 个 字母 进行 排列 ， 从 而 构成 另外 一 个 瑞 文 单词 “strut”) 。 程 序 清单 8.6 中 的 R 程 序 
可 以 找到 这 些 单 词 。 


程序 清单 8.6 ”在 R 程 序 中 平行 地 运用 函数 


#!/usr/bin/fenv Rscript 
library (combinat) 
library(paral lel) 


# Read in a file of English words 
words <- readLines('/usr/share/dict/words' ) 


# Obtain five letter words 
flw <- words[nchar(words) == 5] 


# Return words consisting of permutations of the passed word 
word.permutations <- function(w) { 

# Obtain all character permutations 

p <- lapply(strsplit(w, NULL), permn) 

# Convert permutations to list of words 

r <- sapply(unlist(p, recursive=FALSE), paste, collapse="") 

# Remove permutations resulting in the original word 

new <- r[r != w] 

# Return the intersection of the two sets 

intersect(flw, new) 


i 


# Generate list of words that are permutations of others 
p <- unlist(lapply(flw, word.permutations)) 


这 个 R 程 序 的 全 部 工作 ， 其 实 都 是 由 word.permutations 了 水 数 来 完成 的 。 在 由 5 个 字符 所 组 成 的 某 单 词 上 面 调用 该 消 数 ， 即 
可 列 出 由 这 5 个 字符 的 其 他 排列 万 式 所 构成 的 单词 。 


> word.permutations(' teams') 
[1] "mates" “meats steam" " 


tames" 


有 了 这 个 消 数 之 后 ，R 程 序 束 可 以 通过 lapply 遂 数 ， 把 它 运 用 到 长 度 为 5 的 所 有 单词 (ate Hflwhr AEWA) 上 
面 ， 从 而 把 其 中 满足 条 件 的 那些 单词 找 出 来 。 如 果 把 lapply 改 为 平行 化 的 mclapply 版 本 ， 那 么 只 需 花 费 不 到 四 分 之 一 的 时 间 ， 
束 可 以 计算 出 结果 。 


> system.time(lapply(flw, word.permutations) ) 
user system elapsed 
20.896 0.000 20.896 


> system.time(mclapply(flw, word.permutations, mc.cores=8)) 
user system elapsed 
42.976 0.268 | 4.623 


最 后 要 说 的 是 ， 有 很 多 编程 框架 都 在 通过 引入 更 为 高 级 的 原 语 来 解决 与 低级 并 友 代 码 有 关 的 bug。 因 此 ， 在 条 件 允 许 的 情况 
下 ， 可 以 试 着 改 用 这 些 原 语 来 编写 代码 ， 而 不 用 再 与 那些 低级 的 多 线程 代码 相 纠 缠 ， 因 为 要 想 修复 那些 混乱 的 代码 ， 是 很 困难 
的 。 下 面 以 Java 的 并 上 友 工 具 包 为 例 来 概述 这 种 用 法 : 


- Jf] Executor#E 22 #9) Executor5 ExecutorServiced## n (参见 第 64 条 ) ， 取 代 那 些 对 低级 线程 进行 管理 的 代码 。 


- 用 CountDownLatch、CyclicBarrier、Exchangetr、Phaset 及 Semaphore 类 ， 取 代 那 些 以 原始 的 synchronized 代 码 块 所 实现 的 类 似 


用 java.util.concurrent 包 所 提供 的 并 发 集合 以 及 具有 弱 一 致 性 的 迭代 器 来 取代 自 编 的 同步 机 制 、java.util 中 的 菜 些 内 容 ， 以 及 
Collections 中 的 同步 适配器 (synchronization adapter) 方法 。 可 供 考 虑 的 类 有 : ArrayBlockingQueue, Block-ingDeque, 
BlockingQueue, ConcurrentHashMap, ConcurrentLinkedDeque、ConcurrentLinkedQueue、ConcurrentMap、ConcurrentNavigableMap、 
Concur-rentSkipListMap. ConcurrentSkipListSet. CopyOnWriteArrayList. CopyOn-WriteArraySet, DelayQueue, 


LinkedBlockingDeque. LinkedBlockingQueue, Linked-TransferQueue. PriorityBlockingQueue, SynchronousQueue -4 TransferQueue « 


vy? 2- 


- 如 果 任 务 之 间 的 关系 较为 复杂 ， 那 么 可 以 考虑 用 CompletableFutute 类 协调 这 些 任务 的 并 行情 况 。 
采用 并 行 Stteam、FututeTask 及 lambda 表 达 式 来 描述 那些 将 要 并 发 执行 的 过 小 与 映射 操作 。 


我 们 来 看 程序 清单 8.7 中 的 这 个 程序 ， 它 会 根据 第 一 个 参数 的 值 ， 对 某 份 文件 进行 处 理 ， 把 其 中 的 各 项 IP 地 址 都 解析 为 对 应 
的 主机 和 名称， 并 将 其 输出 。 比 如 ， 如 果 文件 里 面包 含 8.8.8.8 这 个 IP 地 址 ， 那 么 程序 就 会 输出 google-public-dns- 


a.google.com, 


程序 清单 8.7 基于 Stream 的 IP 地 址 解析 程序 


import 
import 
import 
import 
import 
import 
import 
import 
import 
import 


/* * Re 
public 
/* * 


java.10.I1OException; 
java.net.InetAddress; 
java.net.UnknownHostException; 
java.nio.file.Files; 
java.nio.file.Path; 
java.nio.file.Paths; 
java.uti!l.concurrent.ForkJoinPool ; 
java.util.concurrent.CompletableFuture; 
java.util.stream.Collectors; 
java.util.List; 


solve IP addressed in file args[0] using 100 threads */ 
class ResolvelOOCF { 
Resolve the passed internet address into a name */ 


static String addressName(String ipAddress) { 


l, 


try { 


return InetAddress .getByName(1pAddress) .getHostName() ; 


} catch (UnknownHostException e) { 
return ipAddress; 


} 


public static void main(String[] args) { 


Path path = Paths.get(args[0]); 
// Create pool of 100 threads to compute results 
ForkJoinPool fjp = new ForkJoinPool (100); 


try { 
// Obtain list of lines 
List<CompletableFuture<String>> list = 
Files. lines(path) 
// Map lines into a future task 
.mapCline -> CompletableFuture. suppl yAsync( 
() -> addressName(line), fjp)) 
// Collect future tasks into a list 
.collect(Collectors.toListQ)); 
// Wait for tasks to complete, and print the result 
list.stream() .map(CompletableFuture: : join) 
. forEach(System.out: :printl1n); 


} catch (IOException e) { 
System.err.printIn(C"Fai led: 


+ e); 


} 


由 于 这 上 段 程 序 利用 了 Stream 及 CompletableFuture 类 ， 因 此 它 不 需要 对 线程 及 其 运行 结果 进行 手工 的 管理 。 对 于 含有 1000 


个 IP 地 址 的 文件 来 说 ， 该 程序 只 需 37 秒 束 可 以 处 理 元 ， 而 那 种 按 顺 序 执行 的 实现 方式 ， 则 要 用 48 分 钟 才 


后 者 的 78 倍 。 


Ac 
月 > 


成 ， 前 者 的 速度 是 


$ time java ResolveFuture 1000.ip >1000p.name 
real Om37.465s 


user Om0.015s 
SYS Om0.000s 


$ time java ResolveSequential 1000.ip >1000s.name 
real 48m40.036s 


user Om0.000s 
Sys Om0.015s 


=| 


按 顺 序 执行 的 方式 之 所 以 很 慢 
非常 合适 的 ， 而 且 范 例 程 序 还 避 开 了 低级 的 并 友 原 语 。 


， 其 原因 在 于 : DNS 查询 会 引 友 很 长 的 VO 延 迟 。 因 此 ， 对 这 样 一 种 任务 加 以 平行 化 的 处 理 是 


要 点 
. 为 了 避 开 并 发 方面 的 问题 ， 可 以 考虑 用 特殊 的 编程 语言 、 处 理 流程 、 工 具 、 框 架 或 程序 库 等 更 为 高 级 的 办 法 来 重新 实现 那 
些 含 有 bug 的 并 发 代码 。 


Ansible 

Ant 

Apache Hadoop 

Apache HTTP 
Server 

Apache JMeter 

Apache log4j 

“The Art of 
Command Line” 

AutoHotkey 

AutoKey 

Automator 


Black Duck Open 
Hub Code Search 

Boost.Log v2 

Bugzilla 

Bunyan 

bytecode 

Byteman 


CFEngine 
cgdb 

Chef 
Chronon 
collectd 
CppUnit 
Crittercism 
ctags 

CURL 
Cygwin 


DDD 

dmalloc 

Docker 

Dynamic program 
analysis 


“Eradicating 


Non-Determinism” 


FindBugs 


GCC 
gdbinit 


http://www.ansible.com/ 
http://ant.apache.org/ 
http://nadoop.apache.org/ 


http://httopd.apache.org/ 
http://jmeter.apache.org/ 
http://logging.apache.org/log4| 


https://github.com/jlevy/the-art-of-command-line 
http://www.autohotkey.com/ 
https://en.wikipedia.org/wiki/AutoKey 
https://en.wikipedia.org/wiki/Automator(software) 


https://code.openhub.net/ 
http://www.boost.org/doc/libs/1_59_O/libs/log/doc/html/index.hAtm| 
https://www.bugzilla.org/ 

https://github.com/trentm/node-bunyan 
http://andrei.gmxhome.de/bytecode/ 

http://byteman.jboss.org/ 


http://www.cfengine.com/ 
http://cgdb.github.io 
http://www.chet.io/ 
http://chrononsystems.com/ 
https://collectd.org/ 
http://copunit.sourceforge.net 
http://www.crittercism.com/ 
https://en.wikipedia.org/wiki/Ctags 
Nttp://curl.naxx.se/ 
https://cygwin.com/ 


http://www.gnu.org/software/ddd 
http://dmalloc.com/ 
https://www.docker.com/ 


https://en.wikipedia.org/wiki/Dynamic_program_analysis 


http://martinfowler.com/articles/nonDeterminism.html! 
http://findbugs.sourceforge.net/ 


https://gcc.gnu.org/ 
https://gist.github.com/CocoaBeans/1 879270 


Gerrit 

ghi 

Git 

GitHub 

GitLab 

GNU Classpath 
GNU parallel 
Graphviz 


Homebrew 


https://www.gerritcodereview.com/ 
https://github.com/stephencelis/ghi/ 
https://git-scm.com/ 
https://github.com/ 
https://about.gitlab.com/ 
http://www.classpath.org/ 
http://www.gnu.org/software/parallel/ 
http://graphviz.org/ 


http://brew.sh/ 


How To Ask Questions 


The Smart Way 
Humble Object 


Intel Inspector 


Jalangi 
JProfile 
jq 
JRuby 
JSFiddle 


Launchpad 
libmicrohttpd 
LLVM 

Log4j 

LTTng 

Lua 


Magic Number 
make 

Maven 

Mono 

mruby 


Nagios 
New Relic 


OpenJDK 
OTRS 
Outwit 


PLCrashReporter 

Process Monitor 

Program Record/ 
Replay Toolkit 

Pull request 

Puppet 

Python Tutor 


qmcalc 


Raspberry Pi 
Redmine 


http://www.catb.org/~esr/fags/smart-questions.html| 
http://xunitpatterns.com/Humble%20Object.htm! 


https://software.intel.com/en-us/intel-inspector-xe 


https://www.eecs.berkeley.edu/~gongliang1 3/jalangi_ft/index.html 
http://www.ej-technologies.com/products/jprofiler/overview.htm| 
http://stedolan.github.io/jq/ 

http://jruby.org/ 

https://jsfiddle.net/ 


httos://launchpad.net/ 
http://www.gnu.org/software/lipmicrohttpd/ 
http://Ilvm.org/ 

http://logging.apache.org/ 

http://ittng.org/ 

http://www.|lua.org/ 


https://en.wikipedia.org/wiki/Magic_number_%28programming%29 
https://en.wikipedia.org/wiki/Make(software) 
https://maven.apache.org/ 

http://www.mono-project.com/ 

http://www.mruby.org/ 


https://www.nagios.org/ 
http://newrelic.com/ 


http://openjdk.java.net/ 
http://www.otrs.org/ 
http://www.spinellis.gr/sw/outwit/ 


httos://www.plcrashreporter.org/ 
https://technet.microsoft.com/en-us/sysinternals/processmonitor 


http://www.pintool.org/ 
https://help.github.com/articles/using-pull-requests/ 
http://www.puppetlabs.com/ 
http://www.pythontutor.com/ 


https://github.com/dspinellis/cqmetrics 


http://raspberrypi.org/ 
http://www.redmine.org/ 


Reproducible builds https://reproducible-builds.org/ 


RRDtool 
Rubinius 
Rule of three 


http://oss.oetiker.ch/rrdtool/ 
http://rubinius.com/ 
httos://en.wikipedia.org/wiki/Rule_of_three_%28C%2B%2B_programming%29 


saleae https://www.saleae.com 
Salt http://saltstack.com/ 
Selenium http://www.seleniumhq.org/ 
SourceLair https://www.sourcelair.com/ 
Splunk MINT http://www.splunk.com 
spy-js http://spy-|js.com/ 
sscce.org http://sscce.org/ 
Stack Overflow http://www.stackoverflow.com 
StackExchange http://www.stackexchange.com 
Static analysis tools https://en.wikipedia.org/wiki/List_of_tools_for_static_code_analysis 
tcpdump http://www.tcpdump.org/ 
TeamViewer https://www.teamviewer.com/ 
“TestDouble” http://martinfowler.com/bliki/TestDouble.htm! 
Trac http://trac.edgewall.org/ 
Unit testing 
frameworks https://en.wikipedia.org/wiki/List_of_unit_testing_frameworks 
Valgrind http://valgrind.org/ 
Vert.x http://vertx.io/ 
vim http://www.vim.org/ 
VisualVM https://visualvm.java.net/ 
VLC http://www.videolan.org/index.html| 
Wat https://www.destroyallsoftware.com/talks/wat 
Winston https://github.com/flatiron/winston 
Wireshark https://www.wireshark.org/ 
zzuf http://caca.zoy.org/wiki/zzuf 


请 访问 英文 版 原 书 网 站 www.spinellis.gr/debugging 以 查看 最 新 的 列表 。 


